引言
健康的身体是幸福的基础,大家都希望“革命的本钱”无病无害;然而“五谷食,百病生”,因此,及时将疾病扼杀在摇篮里才更为现实。血液、尿液等这些容易采集的人体样品中往往包含有许多潜在的疾病发生信息,通过检测评估这些信息我们就能够预测一些疾病的发生。
证据表明,许多circRNA在血液、尿液等体液中能够被检测到,且与疾病紧密相关,可以作为新的疾病诊断标志物。因此,通过circRNA来预测疾病是可能的。
然而,在寻找circRNA和疾病的关系过程中,传统基于生物实验的探索方式耗时耗力,显得力不从心;但在circRNA研究者的齐心协力下,circRNA与疾病研究的知识越来越丰富,随着生物信息学的广泛应用,这些零散的信息被收集整理成一些circRNA-disease数据库,帮助研究者更快速地获取相关信息;而机器学习和人工智能的崛起让人们获得了预测未知的能力,一系列预测circRNA-disease关联的计算方法最近也被开发出来,帮助研究者进一步缩小了探索的目标范围,加速了circRNA和疾病的研究进程。
下面就让我们盘点一下当前的一些circRNA-disease数据库和计算方法。
数据库
有的数据库只活在文章里,有些数据库被研究者广为传颂。2013年就发表的Circ2Traits的数据库网站早已无法访问,不过其中的数据仍可以通过 github.com/shaoli86/circ2Traits下载。CircNet、CSCD、CircR2Disease、circRNADisease都分别在2021 和 2022对数据库进行了升级。而MNDR数据库在经历3个版本更新后也于今年1月更新为 RNADisease v4.0。另外,今年出现了两个新的数据库GBCdb与 ncR2Met,它们分别收集了与胆囊癌和癌转移相关的circRNA信息。
circRNA越来越丰富和深入的研究内容,为数据库开发提供了肥沃的土壤。从 pubmed搜录的信息看,2021年和2022年关于circRNA的研究已经超过了 2500 篇,而2023年一季度就已经超过了 750 篇!相信后续会有更多数据库的涌出。当然,数据信息的增多另一方面也为数据收集和整理者带来了不小的挑战。所以对于那些能够持续维护的数据库,让我们且用且珍惜!
“前人栽树,后人乘凉”,数据库(广义)也是机器学习和人工智能应用的基石,一个好的数据库能够为计算方法开发者节省不少的开发成本。
计算方法
当获得足够的circRNA-disease信息,我们就可以提取circRNA和疾病的特征来训练circRNA-disease机器学习或深度学习模型,最后用于预测其他未被研究的circRNA-disease关系。
基于这样的理念,目前已经发表了超过67个计算方法。其中有16个所发表的文章影响因子> 10(如下图),主要被收录在 Briefings in Bioinformatics。值得一提的是,这些文章基本都发表于2018年之后,大概是因为2018年发表了两个疾病数据库circRNADisease 和 CircR2Disease,这两个数据库收集的都是人工文献筛查的circRNA-disease关系;而在此之前的两个数据库Circ2Traits 和CircNet中的数据主要是高通量测序数据或通过生物信息关联的数据。这也说明了要想构建好的计算模型必须先有可靠的数据资料。