序言
自从2012年Salzman等人通过高通量测序检测到大量环状RNA分子之后,circRNA研究可谓是高歌猛进,特别是不久前美国初创公司ORNA提出的“环状RNA疗法”更是获得了1亿美元的融资。
环状RNA的研究者很清楚现在二代测序检测circRNA存在许多缺陷,特别是无法完整的捕获circRNA全长以及难以准确地对circRNA定量。虽然在实验和生信层面都有一些策略来弥补不足,然而二代测序序列太短还是无法从根本上解决。
实验层面:
- RNase R或poly(A)-构建文库的方式能够在一定程度上对circRNA进行富集,然而一些circRNA对RNase R比较敏感而一些线性分子却能够抵御RNase R。另外,PCR扩增以及文库的复杂性都可能对circRNA定量造成偏差。
- 另外,目前研究认为circRNA长度大多分布在300~500bp,因此将测序策略从双端150bp改成双端250bp可以增加检测circRNA敏感性和准确性。
生信层面:
目前关于circRNA识别和定量基本上是基于back-spliced junction(BSJ),另外还有一些其他方法,包括
- 结合forward-spliced junction(即比对到线性剪接位点),对circRNA进行相对定量
- 类似于线性RNA序列重构,circRNA通过将reads进行拼接,利用深度搜索等算法识别出最佳转录本策略。
而三代测序长读长的特点从根本上杜绝了二代测序过度片段化,这为检测circRNA全长以及精准定量带来了希望。
目前已发表关于用三代测序研究环状RNA的文章有4篇,包括
• 2017.Circular RNAs of the nucleophosmin (NPM1) gene in acute myeloid leukemia.
• 2019.Nanopore sequencing of full-length circRNAs in human and mouse brains reveals circRNA-specific exon usage and intron retention
• 2021.isoCirc catalogs full-length circular RNA isoforms in human transcriptomes
• 2021.Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long
2017年那篇仅仅实现了一个circRNA的解析,属于Nanopore+circRNA尝鲜版本;其他三篇都是全转录组层面的,然而2019年发表在bioRxiv属于低配版本,虽然用到了Nanopore,却仍采用的是二代测序的思路,用检测线性分子的思维检测环状分子,但相比二代测序仍提高了不少检测效能;2021年的isoCirc和CIRI-long两篇研究发表时间相隔较近,isoCirc一月发表而CIRI-long三月发表,其中
• isoCirc提出了Nanopore+circRNA的实验和生信方法,最大特点是Circular Consensus Sequnces,即保证了能够检测环状RNA全长又降低了三代测序较低准确率的缺陷。另外,isoCirc还对12个组织样品进行了检测,提供了全长circRNA的全景图谱。
• CIRI-long和isoCirc策略非常相似,但对许多步骤进行了优化,目的是提供Nanopore+circRNA的best practices。
那么下面对三个关于Nanopore+circRNA的研究进行了简单的解读,探讨一下三代高通量单分子测序技术在环状RNA研究领域溅起的水花。
三篇文章主要策略比较
注意,为了方便阐述,用
• Rahimi指代Rahimi et al.2019的研究
• isoCirc指代Xin et al.2021的研究
• CIRI-long指代Zhang et al.2021的研究
我们可以看到,三个策略为了保证最后文库尽可能是环状RNA,他们都进行了rRNA去除/RNase R酶处理/去除包含poly(A)尾的RNA三个富集步骤
• Rahimi et al测序的策略是通过对打断后的circRNA添加poly(A)尾进行线性RNA测序
• 而其他两个研究都选择了滚环扩增然后识别Circular Consensus Sequences(有趣的是,CCS是PacBio确保测序准确性的关键,近些年被用于nanopore转录本测序)。
另外,相比后两个研究,Rahimi et al的文库表现出较高的序列选择性,例如ciRS-7在人和小鼠大脑中居然没有检测到。
而在样品抽提得到的RNA起始量方面,由于circRNA在转录组中的含量极低,因此Rahimi与isoCirc的含量都是至少20μg,然而CIRI-long却只需要1μg,这非常惊人——要知道常规的二代测序circRNA一般也需要2μg的起始量。
我们都知道,测序文库的大小在某种程度上会造成RNA分子的检出率以及定量,因此,CIRI-long通过多次校正,最终选择了~1kb的长度作为检测长度(如下图展示了文库长度与circRNA检出率的相关性图)。
最后,CIRI-long通过测试多种Protocols,给出了Nanopore+circRNA目前可能的最佳协议(下图展示了不同Protocols表达定量一致性比较)
与二代测序比较
三代测序技术的理念其实是我们研究细胞内核苷酸分子最容易想到的,然而受限于整个技术行业的壁垒,二代测序技术作为折衷的检测手段成功上位。
新的技术在某种程度上能够弥补旧技术的不足,然而却无法在短时间内完全替代——这一点在科学领域尤为凸显。同样,三代测序目前能够填补二代测序的一些不足,但与二代测序的竞争目前来看会持续相当一段时间。
下面主要从以上三篇研究讨论了三代测序研究环状RNA的优点与不足。
1 测序碱基准确率
理论上,目前Illumia测序测序单碱基错误率不足0.01%,一般RNA-seq的Q30能达到90%以上(对应关系如下图)。
然而三代测序在单碱基测序的准确性方面天生不足,常见的测序指标不是Q30不是Q20而是Q10。因此如果要进行单碱基分辨率的研究,例如基因突变,往往需要对同一位置进行多次重复检测或结合二代测序进行校正。
从文中可以发现Rahimi研究的序列碱基错误率均值在6.4%~6.8%,而isoCirc与CIRI-long由于用到了CCS策略,错误率随着同一位置检测拷贝数增加而显著下降(如下图)。
2 环状RNA检出率
由于circRNA在整个转录组中含量极低,因此circRNA检出率非常关键,然而有非常多的因素会影响circRNA检出率,例如组织类型、RNA起始含量、建库RNA片段化程度等。
从测序角度来看,环状RNA区别于线性RNA的关键还是Back Spliced Junction(BSJ),一般认为测序中一条read只有覆盖BSJ才能成为circRNA的候选reads。
二代测序仪能够读取的只有较短的线性RNA分子,因此,为了检测环状RNA,我们需要先将其片段化然后选择合适的测序长度。然而,片段化长度是随机的,因此如果测序长度并不在我们的选择范围内(建库长度选取),其他包含BSJ的片段会被抛弃。
三代测序的优势是能够检测足够长的序列(就怕你不够长),如果采用二代测序策略然后测序效果怎么样呢?然而遗憾的是Rahimi虽然做了三代测序但没有进行同等条件下与二代测序的比较。
isoCirc与CIRI-long通过对circRNA滚环保证了测序的长度,不仅仅能够检测BSJ序列还能够将circRNA全长检测出来。那么这种方式检出率与二代比较如何呢?首先我们需要清楚,两篇文章中二代测序采用的都是比较常规的测序方式,建库方式并不是滚环扩增,所以在BSJ检测效率上二代测序会有一定的亏损。另外,isoCirc在RNA起始浓度上并不平衡(三代测序>20ug,二代测序2ug),并且采用的是双末端101bp X 2的方式——降低了捕获BSJ的效率。
当然,我们仍能够看到,CIRI-long三代测序策略相对于常规二代测序优势
• 更强的检出率
• 低表达水平circRNA检测能力
大量表达水平较低的circRNA只出现在了三代测序中
• 捕获到了线粒体circRNAs
isoCirc提到,用他们的策略BSJ检出率达到了3.5~4.0%,而二代测序只有0.045~0.048%,另外也跟已发表circRNA数据集进行了比较(如下图,both代表两个数据库)
3 可变剪切事件
三代测序最大的优势在于能够完整地捕获RNA转录本分子,不像二代测序需要用算法去拼接——这让我们能够真正的看到转录本的完整序列而不是靠算法去猜,三代的这种能力保证了研究可变剪切事件的天然优势。
• 三篇研究都提到了三代测序能够更准取的捕获circRNA序列的复杂性,例如新的外显子的发现、开放阅读框的偏移等等
• 三代测序能够清楚地观察到非经典剪切事件,例如线粒体circRNA的识别、非GT/AG的剪切事件等等
• 三代发现了更多的retained introns事件,让二代测序无法准确识别的exonic intronic circRNA(EIciRNAs)以及intronic circRNA(非套索circRNA)能够浮出水面
4 可重复率
通过多个重复样品比较,isoCirc认为circRNA研究在重复性方面略高于二代测序。
而CIRI-long在两个重复中的表达相关性也达到了0.91
5 表达水平
实际上,二代测序很难准确地定量circRNA,虽然有许多方法对这一点进行了改善。
isoCirc比较了HEK293细胞中高置信BSJ的表达水平
在前面提到CIRI-long相比常规二代测序检测到了更多低表达的circRNAs,另外,特别值得注意的是,在对16个circRNA进行验证时,qRT-PCR的CT值与CIRI-long预测的表达水平高度相关。
为何都选择Nanopore而不是PacBio
目前中国市场三代测序主要是PacBio与Nanopore两家的天下,技术上主要区别一个用光信号检测,一个用电信号检测。
宣传页上,PacBio宣传CCS高精度,而Nanopore宣传超长读长。然而,虽然PacBio SMRT技术错误率更低,但相比之下价格更昂贵且通量较低。
另外,相比PacBio,Nanopore在中国宣传上更积极,而且有适用不同场景的多个型号供客户选择。上面三篇文章都采用的是minION平台,足以满足启动科学研究的需求。
所以,对于一般的研究人员,阻碍研究的首要因素仍是经费水平。
最佳测序协议
下面展示了CIRI-long测试circRNA不同测序协议在表达上的相关性。
通过比较给出了目前circRNA测序最佳的协议,更多详情请访问原文。
研究的局限性
1. circRNA富集协议可能引入偏差
这可能是研究circRNA目前绕不开的议题,并不是所有circRNA都对RNase R不敏感;另外,rRNA去除以及A-tailing都会引起RNA文库偏移实际情况。
比较严重的是Rahimi的研究居然没有检测到脑中非常丰富的ciRS-7。
2. 难以计算相对线性分子的表达
无偏地研究全转录组RNA分子的表达可能是个终极目标,Rahimi的策略是能够实现线性与环状RNA分子同时定量的,然而,isoCirc以及CIRI-long却难以全面地捕获线性与环状RNA分子。
3. 测序深度还不够
这个问题是经费与产出之间的博弈,后续也许有研究对三代测序测序深度与circRNA检出率的饱和程度。
尾声
三代的高通量单分子测序能够触及二代测序难以填补的空白,最近这三篇研究让我们充分认识到了三代测序在circRNA研究领域大有作为。
三代测序能否引领circRNA研究的未来,让我们拭目以待。
参考文献
1.Rahimi K, Venø M T, Dupont D M, et al. Nanopore sequencing of full-length circRNAs in human and mouse brains reveals circRNA-specific exon usage and intron retention[J]. BioRxiv, 2019: 567164.
2.Xin R, Gao Y, Gao Y, et al. isoCirc catalogs full-length circular RNA isoforms in human transcriptomes[J]. Nature communications, 2021, 12(1): 1-11.
3.Zhang J, Hou L, Zuo Z, et al. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long[J].Nature biotechnology, 2021