简介

众所周知,环状RNA具有编码蛋白质的潜力,而内部核糖体进入位点(IRES)是环状RNA通过帽独立机制翻译蛋白质的关键RNA调节元件。此前的 IRES预测方法大多是基于传统的机器学习算法,比如IRESPrediresprectorIRESfinderIRESpy等工具,而利用深度神经网络框架进行 IRES特征深度挖掘的工具则还没有出现,而且还只局限于线性RNA的IRES预测,直到目前也还没有专门用于环状RNA IRES的预测方法。

为了解决这个令广大科研人员苦恼的问题,浙江大学智能创新药物研究院周展教授团队开发了一个工具——DeepCIP,该工具采用了多模式深度学习方法专门对circRNA IRES进行预测,将更好地帮助我们研究circRNA的编码潜力以及提升circRNA药物的设计能力。

作者以预印本的方式于2022年10月发表了一篇题为 “DeepCIP: a multimodal deep learning method for the prediction of internal ribosome entry sites of circRNAs” 的文章。

算法优势

1、DeepCIP和XGBoost_weight模型的预测性能比较
为了评估DeepCIP模型的预测性能,作者使用独立的测试数据集对DeepCIP的模型和XGBoost_weight模型进行了比较实验。比较结果表明,DeepCIP在所有指标方面都比XGBoost_weight模型具有更高的性能表现(表1)。

表1.DeepCIP和XGBoost_weight对circRNA IRES预测的比较结果

 

2、DeepCIP预测结果的有效性比较

为了进一步研究DeepCIP的有效性,作者研究了预测的circRNA IRES概率与circRNA IRES实验活动之间的相关性(图1)。结果表明,具有更高活性的circRNA IRES通常也具有更大的预测概率。此外,人类和病毒circRNA IRES的预测概率通常都大于非circRNA IRES,证明了DeepCIP对人类和病毒circRNA IRES预测的能力

图1.DeepCIP与其他模型预测效果对比

 

3、应用于真实的circRNA IRES数据集上不同模型的预测性能比较
作者评估了DeepCIP模型对真实数据集的预测能力,并将DeepCIP的预测结果与其他模型进行了比较(表2),包括专门用于circRNA的XGBoost_weight和 XGBoost模型以及用于线性RNA的IRESpy软件。结果表明,DeepCIP在预测circRNA IRES的能力上比其他算法表现更好。而IRESpy的预测性能则显著低于其他方法,同时也表明了开发专门用于circRNA IRES鉴定的方法的重要性。

表2.本地真实数据集上不同模型的预测结果

综合上述比较的结果,通过整合序列和结构信息,DeepCIP可以更有效地捕获circRNA IRES的特征 

方法策略

DeepCIP采用软投票策略来集成三个由不同数据集训练的融合模型。其中,每个融合模型由四个模块组成,分别为RNA处理模块S-LSTM模块GCN模块和特征融合模块(图2)。首先,利用RNA处理模块对输入的RNA序列进行预处理,以便用于序列编码、结构预测和RNA图构建。接着,使用S-LSTM模块和GCN模块分别提取RNA序列特征和RNA二级结构特征。最后,在特征融合模块中,把从RNA序列和结构中提取的特征进行融合。融合后的特征通过完全连接层和sigmoid函数计算,最终输出一个概率,表示输入RNA序列是circRNA IRES的可能性。

图2.DeepCIP的架构

小结

DeepCIP这种基于序列和结构特征的多模式深度学习方法,可以识别circRNA IRES序列的可变长度。由于IRES的功能依赖于RNA结构,作者构建了一个加权RNA图来建模RNA二级结构,并基于GCN提取结构特征。同时,作者创新性地使用S-LSTM学习全局节点来表征整个RNA序列,从而更好地为分类任务并对上下文信息进行建模。当然,任何一个工具都不是完美无缺的,或多或少都会存在一些局限性。首先,作者认为用于模型训练的数据是固定设计的RNA序列,长度均为174 nt,然而真正的circRNA IRES序列却具有不同的长度。其次,大多数IRES的机制与核糖体的募集有关,仅考虑序列和结构特征,真核启动因子(eIF)和ITAF的调节可能不足以解释IRES的机理,因此还需要进一步考虑RNA与蛋白质相互作用的信息。

以上是小编对DeepCIP做的一些简单介绍,作为第一款专门用于circRNA IRES预测的工具,DeepCIP的实用性可圈可点,感兴趣的朋友们可以尝试安装使用。

 

参考文献Yuxuan Zhou, Jingcheng Wu, et.al. DeepCIP: a multimodal deep learning method for the prediction of internal ribosome entry sites of circRNAs.2022

转载请联系邮箱授权:circRNA@163.com

发表评论