引言.

众所周知,circRNA是通过反向剪接位点(BSJ)的非规范剪接产生。大多数现有方法仅通过相应的BSJ识别circRNA,但并不能估计它们的完整序列或识别来自相同BSJ的不同选择性剪接的环状异构体(isoform)。

为此,来自德国医学系统生物学研究所Meyer教授团队专门开发了一个全新的工具——CYCLER,可用于识别新的和选择性剪接的circRNA的完整序列并进行表达定量,同时可估计已知线性RNA剪接异构体的丰度,为circRNA的研究带来了新的便利。该项成果发表在了Nucleic Acids Research(IF=16.971) 期刊上。

 

1.算法优势

(1)CYCLER和类似工具的基准测试比较

作者将CYCLER和现有工具进行基准测试比较,发现CIRI-full实现了高精度,但灵敏度有限,这是因为该算法仅在其假定外显子的覆盖范围没有中断时才输出完整的circRNA序列。CIRCexplorer2用于检测circRNA中的可变剪接事件,并报告为与剪接事件的所有潜在组合相对应的输出转录本,因此导致精度较低。组装的灵敏度和精度对于生成一组有用的剪接异构体同样重要。因此,作者设计了一个F分数,即灵敏度和精度的调和平均值。如图1所示,CYCLER在F分数方面明显优于CIRI-full和CIRCexplorer2

CYCLER的优势之一是它在插入片段大小或RNA-seq输入文库的读取长度方面没有任何隐含或明确的限制。此外,与其他工具相比,CYCLER中基因组特征的量化也不像其他工具那样强烈依赖于高测序深度,因为这种方法仅依赖于junction reads的量化。因此,CYCLER可以利用整个RNA-seq文库进行转录本组装,而不仅仅是恰好跨越剪接位点的大约20%的reads的一小部分。

第二个显著优势是CYCLER能够利用BSJ识别工具的组合。CYCLER的主要优势是装配算法,但也不能完全归功于算法。性能上的差异很大程度上归因于CYCLER更好的基因组特征选择,这有助于减少错误重建的数量。与此相反,CIRI-full仅限于组装短的 circRNA。CIRCexplorer2在组装方面表现不佳,因为它使用了一种从头线性组装的工具——Cufflinks/Stringtie。由于这些工具不能很好地处理circRNA案例,这样就容易引发错误,然后在管道中传播。CIRCexplorer2的另一个缺点是过度依赖注释来检测AS事件。

图1.CYCLER和类似工具的比较基准测试

(2)根据模拟数据进行的转录本定量比较

表1显示了来自去除核糖体的RNA-seq和circRNA-seq模拟数据的circRNA的定量结果。CIRI-vis指的是CIRI-full管道最后一步中的工具。

该结果仅基于两种工具正确识别的转录本数量,通过这种方式来判断这些程序的输出以及组装精度对转录本量化的影响。CYCLER是目前唯一一种同时量化已知线性和新组装的环状转录本的方法

表1. 预测与模拟的circRNA转录本计数的相关性

(3)不同工具在黑腹果蝇数据分析中的比较

除了使用模拟数据研究CYCLER的优点,作者还探讨了CYCLER和其他工具在真实转录组数据上的优点。为此,作者调查了来自黑腹果蝇的RNA-seq数据。如表2所示,CIRCexplorer2包括分析中识别的所有BSJ,而SAILFISH-CIR则过滤掉不属于线性注释的BSJ。CYCLER使用对应于RNase R处理数据集的 BSJ,所识别到的BSJ最少。

表2. 黑腹果蝇数据集:已识别转录本的总数

使用CYCLER进行量化,可以识别再现已知发育阶段的数据中的梯度。此外,CYCLER的量化使得数据中的异常值很容易区分。CYCLER具有这种优势的原因是样品重复之间的方差稳定性,通过circRNA表达相似性树状图中可以清楚地看到这种差异(图2C和D)。

图2. 比较CIRCexplorer2和CYCLER的黑腹果蝇转录组集

总体而言,CYCLER推断的重复样本之间的距离明显更好地反映了它们真实的生物学关系,强调了完整isoform的正确组装是生物样本正确聚类的关键。图3所示的胚胎阶段样品分离得到改善,很好地反映了黑腹果蝇样品之间的真实相似性。

图3. Lai 2014数据集中的批处理效应

(4)与NanoporecircRNA全长数据比较

作者对基于Illumina的方法和基于Nanopore的方法之间的circRNA进行了比较。图4A显示了每种工具的长度调整(<2000 nt)的组装转录本集的Venn图。图4B显示了每个基于Illumina的工具的组装转录本分为已验证(经由 CIRI-long预测到的数据)或未验证(CIRI-long未预测到的数据)。再进一步细分为 Unique——仅一个基于Illumina的工具和CIRI-long共有的转录本,以及Shared——两个或多个基于Illumina的工具和CIRI-long共有的转录本。CIRI-full在每个类别中的转录本计数最低。

作者观察到,与其他基于Illumina的工具相比,CIRCexplorer2 输出的isoform数量非常多。CIRCexplorer2确实提供了最多数量的和CIRI-long共有的isoform;然而,来自CIRCexplorer2的未经CIRI-long验证的isoform数量也高得不成比例。

CYCLER比CIRI-full具有更多数量的和CIRI-long共有的isoform以及更多数量的未经CIRI-long验证的isoform。作者观察到CYCLER比CIRI-full有更多的和CIRI-long共有的结果。然而,这两种工具都具有类似的约 60% 未经CIRI-long验证isoform的比例。这表明在调整序列长度时,CYCLER和CIRI-full的精度相当。CYCLER报告的isoform数量有所增加,而独有的BSJ数量与CIRI-full相似。这可以通过更长的circRNA更可能具有替代isoform这一事实来解释。因此,与CIRI-full相比,CYCLER预测的isoform数量增加是由于CYCLER能够正确组装甚至长剪接isoform。

总之,CYCLER和CIRCexplorer2在验证的转录本方面都优于CIRI-full,而CIRCexplorer2中的误报数量使得该工具不适合isoform组装。CIRI-full受isoform长度的限制——即使有合理的精度统计,该工具也忽略了大量和CIRI-long共有的案例。总而言之,在分析长读长数据方面,CYCLER再次成为唯一在精确率和召回率之间取得良好平衡的工具

图4. 与CIRI-long数据的对比研究

02.方法策略

在CYCLER中,作者采用了贪婪算法对转录本进行迭代重建,以确保低数量的假阳性组装转录本。为此,作者使用在上一步中创建的综合拼接图,并从选择丰度最低的外显子开始,然后识别通过剪接图中该外显子的最大流量并重建相应的环状转录本,再从原始图的相应特征中减去相应的外显子丰度,并删除任何完全耗尽的特征。重复这些步骤,直到无法重建更多的转录本(图5示例)。在现有的相关工具中,只有CIRI-full拥有优化circRNA转录本外显子丰度的算法,其基础算法旨在考虑滚环cDNA产物,因此作者在模拟数据集中避免了这些引起偏差的实验并发症。

图5.以5-HT2A基因为例在CYCLER中重建环状转录本

 

03.小结

CYCLER作为第一种用于识别和定量全长circRNA isoform的计算方法,同时也可定量已知线性RNA isoform的丰度。

CYCLER在模拟数据的所有方面都优于现有的circRNA识别和定量工具。同时,使用CYCLER进行转录组分析所需的实验工作量大大低于现有方法。

 

参考文献

Stefanov, Im M .CYCLER- a novel tool for the fullisoformassembly and quantification of circRNAs[J]. Nucleic Acids Research, 2022.

转载请联系邮箱授权:circRNA@163.com

发表评论