· 重新整合了来自circAtlas和MiOncoCirc数据库的circRNA,以及来自TCGA 数据库的新circRNA
· 算法更可靠,使用三种工具(PITA、miRanda 和 TargetScan)预测全长 circRNA 序列的靶点miRNA
· 数据更准确,整合了来自miRTarBase数据库的384897个经实验验证的miRNA-靶基因相互作用数据
· 数据更全面,旧版本只收集了464 个癌症样本,新版增加至2732 个。
· 功能更丰富,增加了基因组注释和表达谱等信息,还提供了疾病富集分析工具
图1. 改进后的CircNet 2.0功能亮点
首先,作者从circAtlas数据库中整合了高质量的人类癌症相关circRNA及其基本注释和 circRNA–miRNA 相互作用网络;从MiOncoCirc数据库上收集了所有circRNA及其基本注释和表达水平。为了确保数据的完整性,作者重新处理了大量缺失部分注释信息的circRNA,并过滤掉了所有无法修复的数据。为了丰富癌症领域的circRNA信息,作者通过自行设计的管道处理了来自TCGA数据库中六种癌症类型的原始RNA-Seq数据,检测到了新的circRNA,这六种癌症类型包括乳腺癌(乳腺浸润癌)、肺癌(肺腺癌、肺鳞状细胞癌)、结肠癌、直肠癌以及白血病(急性髓系白血病)。
然后,作者使用四种算法(CIRI2、CIRCexplorer2、find circ 和 DCC)获得所有整合的 circRNA 的基本信息。接着使用三种工具(PITA、miRanda 和 TargetScan)预测 circRNA-miRNA 的相互作用,然后与来自miRTarBase数据库的 384897 个经过实验验证的 miRNA-靶基因相互作用的数据进行整合。
最后,数据库呈现的是整合了2732个癌症样本(涵盖37种癌症)中的289303 个 circRNA数据。对于每个circRNA,提供了其基因组位置、链、宿主基因、全长序列、表达矩阵以及与miRNA相互作用的详细信息。
图2. 系统工作流程
4 主要功能
我们以基本搜索模块为例,该模块提供了数据库中最基础和最主要的功能。输入circRNA ID后,CircNet 2.0将提供circRNA的注释、表达、与miRNA的相互作用以及circRNA-miRNA-基因调控网络的详细信息。用户还可以单击可视化网络的任何节点进行浏览和放大。由于缺乏通用的circRNA 命名规则,CircNet 2.0还提供了BLAST搜索,允许用户通过序列相似性将潜在的circRNA与数据库中的数据进行匹配。此外,CircNet 2.0允许用户通过搜索具有显著表达的癌症相关circRNA进行癌症特异性分析。该模块还允许用户根据circBase ID进行数据库搜索,并将其转换为circNet ID,从而提高了数据浏览的效率。而且,我们还可以通过输入宿主基因的方式进行检索,方便了circRNA的查询。
图3. search模块界面
此外,数据库还提供了下载功能。在下载页面,CircNet 2.0数据库主要提供了两种数据类型:一种是circRNA-miRNA相互作用的数据,另一种是按各种癌症类型进行分类的circRNA 数据。用户可根据自己的需要进行选择下载。
图4. download模块
5数据库使用体验
6小结