10月19日,Nucleic Acids Research杂志在线发表了中国科学院上海营养与健康研究所王泽峰研究员张国庆研究员为文章的共同通讯作者的文章,发布了全新的circRNA翻译预测和分析的数据库:TransCirc [1]

 

数据库网址

https://www.biosino.org/transcirc/

TransCirc数据库整合了各种与翻译相关的证据,检索的结果能直观的呈现翻译产物的相关证据信息。数据共分析了328080种已知人类circRNA的翻译潜能,有蛋白质谱证据(MS)的circRNA有168个,核糖体印迹或多聚核糖体分析(RP/PP)的证据4284个circRNA,潜在翻译产物序列分析(SeqComp)的301100个circRNA。有IRES预测结果的314138个circRNA,有m6A修饰位点信息的39397个circRNA,有翻译起始位点信息(TIS)的9394个circRNA,有ORF信息的305016个circRNA。(数据摘自TransCirc数据库网页,与文章表述内容有出入)。

图1  TransCirc数据库架构介绍([1])

TransCirc收集的有关circRNA翻译的证据信息(来自TransCirc数据库的帮助文档 [2]

 

1. 核糖体印迹与多聚核糖体分析证据

mRNA的翻译是由核糖体进行的,它可以在主动翻译的mRNA中形成多聚核糖体(Polysome)。因此,与核糖体/多核糖体的结合可以作为可翻译circRNA潜力的强有力的预测证据。数据库整合了已发表的核糖体印迹(Ribosome Profiling)分析数据和多聚核糖体分析(Polysome Profiling)数据,挖掘分析circRNA与核糖体的关联。

 

2. 翻译启动站点(TIS)

GTI-seq已实现了接近单核苷酸分辨率的翻译起始密码子的全景图,揭示了整个人类转录组中数千个TIS密码子的明确集合。数据库基于GTI-seq的TISdb数据用作支持circRNAs翻译的间接证据,这也与潜在的ORF相关。

 

3. IRES序列

由于circRNA是共价闭环分子,没有游离末端,因此circRNA的翻译必须使用一种非经典的启动机制,即不依赖5’-帽子的翻译启动。这种起始途径往往通过IRES(内部核糖体进入位点)驱动,IRES是具有特殊二级结构的短RNA片段。在病毒中发现并证明了大量的IRES元件,在一些特殊情况下,哺乳动物内源性的IRES元件也可以起始翻译。作者团队也曾针对circRNA中IRES元件进行了系统性的筛选验证。数据库也使用了所有可用的IRES信息作为支持circRNA翻译的证据。

 

4. m6A位点

N-6-甲基腺苷(m6A)是最常见的RNA修饰,存在于许多类型的编码和非编码RNA中。作者团队曾报道circRNA具有广泛的m6A修饰,并可以通过募集YTHDF3及相互作用的翻译起始因子(例如eIF4G2)起始circRNA翻译。数据库采用了REPIC数据库已发布的m6A修饰数据(由三种不同的工具识别),并将其比对到circRNA序列中。circRNA中已经过实验验证的m6A位点也整合到该数据库中。

 

5. ORF长度

潜在的开放阅读框(ORF)的长度是编码RNA与非编码RNA的共同预测指标。通常在非编码RNA中找不到长的ORF,数据库将ORF长度> 20aa作为circRNA编码肽的最低要求。值得注意的是,ORF长度是一个相对较弱的预测因子,因为最近发现许多小肽是由人类转录组中的“非编码” RNA编码的,而具有长ORF的circRNA更有可能成为编码RNA。

 

6. 翻译产物的序列组成

所有天然蛋白质的氨基酸(aa)序列仅占据可能序列空间的一小部分,主要是因为只有一小部分序列可以形成稳定的蛋白质。因此,具有“非天然”序列的蛋白质倾向于快速降解,并且与所有天然蛋白质的序列相似性可以作为强有力的预测指标,以鉴定随机氨基酸序列中的真实蛋白质。使用机器学习方法来预测天然蛋白给定序列的可能性,并应用该预测来对circRNA编码的给定ORF可以用作功能蛋白模板的可能性进行评分。

 

7. 质谱/蛋白质组学证据

质谱法是准确鉴定和表征蛋白质的重要方法。已经进行了数个大规模质谱实验来研究人类蛋白质组,但是即使考虑蛋白质的翻译后修饰,也只能可靠地将约50%的MS指纹图谱与人类mRNA编码的已知肽匹配成功。这表明,非典型mRNA编码了很大一部分“隐藏蛋白质组”,其中也包括了可能来自circRNA的编码产物。作者通过设计新的分析流程,从蛋白质谱数据中挖掘分析了可能由circRNA编码的多肽,并展示了所有原始质谱图,这些质谱图可支持circRNA编码的跨接口位点的肽段。

 

图2  TransCirc数据库基本信息 ([1])

参考文献

1. W. Huang, Y. Ling, S. Zhang, Q. Xia, R. Cao, X. Fan, Z. Fang, Z. Wang, G. Zhang, TransCirc: an interactive database for translatable circular RNAs based on multi-omics evidence, Nucleic acids research, (2020).

2. https://www.biosino.org/transcirc/

发表评论