简介
环状RNA的内容日新月异,然鹅相关数据库却屈指可数。最近,终于有一款新的癌症数据库发布,circExp——一个能够在线探索人类癌症 circRNA 表达的分析平台。该数据平台由北大生命科学院曲红等研究者通过整理 11 个技术平台的数据完成,旨在提供人类癌症的完整和标准化的 circRNA 表达谱,使其有助于识别癌症中潜在的诊断及预后 circRNA,作为探索circRNA调控机制的有力工具。
该数据库的特点如下:
· 收集了18种癌症类型的48个表达谱数据集
· 鉴定了189193 个在癌症与正常中具有显著差异表达的 circRNA
· 差异分析结果及表达谱可供用户下载
数据来源
作者发现了33个基于微阵列的数据集,其中24个来自 Agilent-069978 Arraystar Human CircRNA 微阵列版本1,9个来自版本2。作者从 GEO 数据库下载了这些基于阵列的信息后,根据每个 circRNA 的基因组位置再将这些 circRNA 映射回 circRNA 数据库 ID 时,发现微阵列版本1和2之间的探针总数差异很大,因此,作者设计了一个数据处理程序,以更多地使用微阵列版本2的注释。此外,作者使用了 circBase 作为参考数据库来统一注释 circRNA,再将微阵列版本1和2中的所有探针统一到 circBase ID中。而在 Illumina 高通量NGS平台上生成的另外14个数据集则均由短 reads 组成,因此作者主要使用基因组来定位 circBase 中注释到的circRNA。
图1 circExp数据来源
接下来,我们来看看 circExp 数据库是怎么使用的。
如何在circExp数据库中使用搜索?
作者构建了三个基于文本的查询界面,使用户能够根据不同的搜索方式查找到 circRNA 的相关信息、实验设计和亲本蛋白编码基因信息。例如,搜索“Exosome”将返回与数据库中实验描述相匹配的所有外泌体相关数据集。
图2 search模块页面
如何浏览circExp数据库?
circExp允许用户挑选不同的癌症类型和平台(基于微阵列或基于RNA-seq的表达谱)来浏览circRNA的表达数据。
图3 Browse模块页面
如何访问circExp数据库中的注释?
一个典型的数据集包含2个信息类别:circRNA 注释页和表达概要页。
在 circRNA 注释页面(下图A),用户可以浏览所有注释的信息,包括 circRNA 在 circBase 数据库中的 ID、基因组位置、链、亲本基因及其相关信息等。用户还可以使用基于 jQuery的 DataTable 插件来加载探针列表,该插件可以对普通 HTML 表进行排序、分页和过滤,只需进行一些类似于 excel 的单击操作。随后,用户可以将结果信息导出为 Excel、逗号分隔值 (CSV) 或 PDF 格式的文件,以进行下一步的数据操作。而且还支持复制和打印功能,以确保在本地计算机上轻松保存数据。
在表达概要页面(下图B)上,基于探针和样本的热图会随着用户向下滚动长长的探针列表而发生动态变化,从而提供了对不同样本之间不同表达模式的快速浏览。此外,还提供了数据集信息和指向 GEO 源数据集的链接。最后,在下载页面中提供了差异表达分析的结果。
图4 注释页面
文章总结
circExp 提供了circRNA数据浏览和搜索功能。对于每个数据集,库中都提供了概述。基于这些处理后的数据,作者发现了52个 circRNA 在20次或更多次的处理分析中差异表达的一致性。在将这些 circRNA 映射到它们的亲本蛋白编码基因后,作者发现在癌症基因组图谱泛癌症数据集中,这些基因可能深刻地影响了10797名患者的生存。
总而言之,该数据库有助于识别对多种癌症类型有潜在诊断和预后意义的circRNA,方便了广大科研工作者对 circRNA 功能的研究。
数据库使用体验
在简单使用数据库之后,我发现该数据库有一些瑕疵:
Ÿ 该数据库是以数据集为单位的数据展现形式,即只能一个数据集一个数据集进行结果查找,这让结果很不直观
Ÿ 该数据库无法用 circBase ID 或circRNA基因组坐标查询,这是作者最大的 bug(希望作者能够改进)
Ÿ 最后,数据库并没有像 TCGA 那样的临床数据,这也是目前 circRNA 临床研究公共数据最大的遗憾
参考文献
[1] Min Z , Yining L , Hong Q . circExp database: an online transcriptome platform for human circRNA expressions in cancers[J]. Database, 2021.