目前识别环状RNA的方法存在检出率低以及在不同数据集中表现的性能不一致的问题,因此,检测算法可能会由于丢失相关的 circRNA 而使高通量研究结果产生偏差。
最近由意大利帕多瓦大学分子医学系的Enrico Gaffo教授和Stefania Bortoluzzi教授开发的一个生物信息学工具——CirComPara2 ,通过结合多种 circRNA 检测方法,在模拟数据集和不同的真实数据集中,还能始终保持较高的检出率而不损失精度,可谓是一大利器,文章发表在 Briefings in Bioinformatics (IF=11.622) 期刊上。
·目前的 circRNA 检测方法既可以达到高精度(precision),也可以达到高召回率(recall),但鱼与熊掌却难兼得
·当前的 circRNA 检测方法在不同的数据集上表现的性能不一致
·现今的 circRNA 检测方法可能会忽略掉感兴趣的circRNA
·CirComPara2 通过对7种方法的结合,在不损失精度的前提下实现了较高的检测召回率
·无论生物学背景如何,CirComPara2 的表现始终优于其他方法
作者首先使用了 9 种 circRNA 预测方法:circRNA_finder、CIRI2、DCC、Findcirc、Segemehl、CIRCexplorer2、Segemehl、STAR 和 TopHat-Fusion,分析了来自人类完整基因组的 5680 个 circRNA 的模拟 RNA-seq 数据。发现每种方法中的假阴性(FN)数量平均达到了 circRNA 总表达数量的 49%(图1a),这表明近一半丢失的 circRNA 具有相当大的表达。而通过进一步检查一个或多个工具(FN集合)遗漏的 1945 个 circRNA,发现只有 4% 的circRNA没有被9种方法中的任何一种发现(图1b),这表明应用多种特征不同且可能互补的算法可以提高 circRNA 的检出率。考虑到两种或更多算法预测的 circRNA 有助于排除许多假阳性(FP),CirComPara 结合了四种 circRNA 检测工具来限制假阳性的数量,以提高预测的整体精度。为了对表现最好的方法组合进行排名,作者计算了一个 F1 值来进行打分,可以均衡地衡量召回率和精确度,结果表明两种或两种以上方法联合预测的 F1 得分最高(0.99;图 1d),确定了召回率和精确度之间的最优权衡。因此,CirComPara2 被设置为集合至少两种方法来联合预测。
图1. 常见的检测方法和 CirComPara2 方法忽略掉的 circRNA
接着,作者比较了 CirComPara2 与其他9种方法对模拟数据的预测性能。CirComPara2 通过实现最高的召回率(0.98)获得了最高的 F1 评分(0.99;图2a),同时保持了与其他算法相当的精度,证实 CirComPara2 修正了其他方法遗漏的真实的 circRNA。
此外,作者还在 142 个真实的 RNA-seq 公共数据集上评估了这 9 种预测工具,这些数据集分别来自 6 个独立的研究,包括人类细胞系,人类、恒河猴和小鼠的各种组织。根据这些工具在真实数据集上的 F1 评分进行排名,结果是CirComPara2 的分值最高(0.91),且差异显著(q < 0.001,图2e),显著优于其他工具。
图2. circRNA 检测方法在模拟和真实数据集上的性能
CirComPara2 实现了一个完全自动化的计算通道,可用于 circRNA 的检测和量化,从读取预处理到 circRNA 注释,采用了模块化和高度并行的方法,使其具有计算效率和弹性。此外,CirComPara2 还可以为开发 circRNA 数据库提供全面可靠的结果。
总之,与最先进的工具相比,CirComPara2 通过增强对真实可靠 circRNA 的检测,实现了对 circRNA 表达更全面的研究,并减小了单一方法产生的偏差,从而为科研人员在不同的生物环境和物种中的研究提供了可靠的 circRNA 预测方法。
[1] Gaffo E , Buratin A , Molin A D , et al. Sensitive, reliable, and robust circRNA detection from RNA-seq with CirComPara2. 2021.