环状RNA(circRNA)相关表达谱数据已成为转录组学的重要组成部分。近日赵方庆教授团队在genome biology杂志发表了circAtlas数据库的文章。circAtlas数据库基于1070个RNA-seq样本数据(从六个脊椎动物物种的19个正常组织中收集)整合出环状RNA相关信息。该数据库包含1,007,087个高度可靠的circRNA,其中81.3%以上已被组装成全长序列。circAtlas网站全面开放提供了这些circRNA的表达模式,保守性和功能注释等信息,是circRNA研究最重要的在线资源之一。
访问CircAtlas网址:http://circatlas.biols.ac.cn/
circAtlas包括从六种脊椎动物(人类,猕猴,小鼠,大鼠,猪和鸡)收集的19种正常组织,并使用了最新的生物信息学分析方法进行circRNA分析。circAtlas的内容和构建如上图所示。每种物种中的circRNA使用四种可靠的检测算法进行了识别,包括CIRI2,find_circ,CIRCexplorer2和DCC。使用CIRI-full / CIRI-vis pipline重建鉴定出的circRNA的全长序列。随后,在全长circRNA中搜索内部核糖体进入位点(IRESs)和ORF,以预测其编码潜力。使用多重保守评分(MCS)方案对circRNA的保守性进行了表征,该方案可估计circRNA在物种,组织和个体三个水平上的保守性。接下来,将有关共表达网络,circRNA-miRNA和RBP结合位点的信息结合起来,对circRNA进行了全面注释。使用GO和KEGG数据库来预测这些circRNA的潜在功能。同时,将circad,circR2Disease和circRNADisease数据库数据整合到circAtlas中,以评估circRNA与各种疾病的相关性。
用户在circAtlas网站界面可输入circRNA名称或序列进行检索。如果circAtlas中已经包含查询circRNA,则用户可以浏览并立即下载其序列,表达谱和注释等相关信息。否则,服务器将查询跨物种的新型circRNA的直系同源序列,执行功能注释,并基于综合注释对候选对象进行优先级排序。circAtlas的全部内容可免费获得,并可从网站下载。
图注:circRNA在六个脊椎动物中的表达谱景观和直系同源信息
图注:新型定量方法分析circRNA保守性。
图注:不同类型circRNA分布特征
图注:circRNA功能注释和网络整合
相比于现有的circRNA数据库,circAtlas收集的脊椎动物circRNA信息最全面。不仅物种数量多,且在多个物种的正常样本和个体中检测到circRNA数量更多。在鉴定circRNA过程中,综合运用了CIRI2,DCC,find_circ和CIRCexplorer2等主流算法,显著提高了鉴定circRNA的可靠性。另一方面circAtlas中的样品多样性为不同维度分析circRNA提供了可能性,比如物种或组织间circRNA表达模式研究,circRNA进化保守性分析。circAtlas利用MSC方法全面评估了circRNA的保守性,发现绝大多数circRNA(平均61.7%)只在一种物种检测到,所有物种均保守的circRNA有797个。此外,circAtlas还在整合circRNA调控网络的基础上进行了深入的功能性注释,包括共表达、microRNA和RNA结合蛋白等信息,为circRNA的深入研究提供了重要的数据资源。
参考文献:
Wu, W., Ji, P. & Zhao, F. CircAtlas: an integrated resource of one million highly accurate circular RNAs from 1070 vertebrate transcriptomes. Genome Biol 21, 101 (2020). https://doi.org/10.1186/s13059-020-02018-y