BG视讯

北京基因组所(国家生物信息中心)马利娜等应邀在Nature Reviews Molecular Cell Biology揭晓长非编码RNA数据库评述文章

  克日  ,BG视讯(国家生物信息中心)马利娜副研究员应Nature Reviews Molecular Cell Biology 约请  ,联合章张研究员  ,揭晓题为“The contribution of databases towards understanding the universe of long non-coding RNAs”的评述  ,系统总结了长非编码RNA(long non-coding RNA  ,lncRNA)数据库的类型及特点  ,讨论生物数据库在lncRNA研究的机缘和挑战中将怎样施展作用。

  LncRNA是一类长度凌驾200个核苷酸的RNA分子  ,没有卵白编码能力或卵白编码能力有限。LncRNA普遍保存于动植物中  ,其在人类中的数目甚至凌驾了卵白编码基因  ,在疾病、稳态平衡、应激反应中施展至关主要的调理作用。随着lncRNA的普遍研究和相关组学数据的迅速积累  ,愈发需要周全网络lncRNA并提供高质量注释  ,以及周全相识lncRNA与种种疾病、性状和表型的关联  ,增进对lncRNA功效的系统研究。近年来  ,lncRNA相关数据库一直生长壮大  ,阻止本评述文章撰写之时  ,作者网络了130余个lncRNA专题或以lncRNA为主要研究工具的生物数据库  ,划分为“判断与整合”、“组学特征剖析”、“知识关联”三个主要类型。

  “判断与整合”类型的数据库为研究lncRNA的多样性和生物学功效提供最为基础的序列和基因组注释信息  ,包括GENCODE、CHESS、FANTOM CAT、MiTranscriptome、NONCODE、LncBook、RNAcentral等数据库。其中人类lncRNA的判断和数据整合是研究重点  ,海内外已有10余个相关数据库。由于判断标准、测序计划、样本的差别  , lncRNA数据集之间保存较大差别  ,并且随着差别物种中lncRNA的大规模判断  ,lncRNA的较量与整合将成为基因组学研究中的基础环节  ,迫切需要构建流程化和自动化的整合工具  ,以为各项研究提供周全和高质量的lncRNA数据集。

  另一方面  ,lncRNA被称为基因组中的“暗物质”  ,大部分lncRNA具有生物学功效照旧仅为“转录噪音”仍是一个保存争议的话题。“组学特征剖析”数据库提供富厚多样的分子特征如动态表达、相互作用、基因组变异、表观遗传修饰、编码小肽、表达数目性状基因座等  ,为掘客具有潜在生物学功效的lncRNA并相识其调控机制提供数据参考。代表数据库包括TANRIC、LncExpDB、starBase/ENCORI、NPInter、DIANA-LncBase、LncBook、LncSEA等。鉴于现在仅有极小一部分lncRNA的功效被研究  ,且其主要调控机制尚不清晰  ,仍需对lncRNA的组学特征举行系统深入的描绘与剖析。

  随着越来越多的lncRNA被实验研究  ,lncRNA相关知识逐渐积累  ,爆发了LncRNADisease、Lnc2Cancer、LncRNAWiki、EVLncRNAs等数据库或知识库。这些库主要通过文献审编获得lncRNA与差别疾病、性状和表型的关联  ,注释相关调控机制、靶基因、代谢通路、生物学历程等  ,增进对lncRNA功效的辖档退解  ,并为lncRNA生物学功效展望提供数据。然而由于标准不统一、命名不规范等  , lncRNA的名称、基因结构、编码性子保存差别版本和转变  ,严重阻碍了lncRNA的数据审编和功效研究K剂康絣ncRNA与部分信使RNA(mRNA)具有相似的分子特征  ,并且一个基因可能同时编码卵白编码和非编码转录本  ,在基因层面举行严酷分类将会引发lncRNA功效研究的诸多问题  ,有须要生长新的基因分类和命名要领。

  LncRNA是继mRNA后的另一大类RNA分子  ,调控人类康健与疾病  ,是未来临床检测治疗和药物研发的新靶点  ,是人类物种特征研究的要害工具。然而其数目重大、种类重大、功效多样  ,以及普遍特异性强、表达量低的特征  ,为深入研究带来极大挑战。数据库在数据审编与挖掘方面  ,需建设统一的lncRNA判断、表征和关联研究的标准和要领  ,以构建完整的lncRNA研究系统。国家生物信息中心将一连完善lncRNA数据资源系统  ,推感人类基因组的周全注释息争析。

  文章链接

附件下载:
【网站地图】【sitemap】