北京基因组所(国家生物信息中心)相助开发单细胞转录组数据仿真软件SimCH
近十多年来,单细胞RNA测序手艺(scRNA-seq)一直生长和普及,同时数以千计的生物信息学/盘算生物学工具被开发出来,以解决诸如数据获。ò炕⒈榷浴⑵唇拥龋⑹菹村òㄖ士亍⒐恕⒐橐换⒄系龋⑾赴峙桑òň劾唷⑴判颉⒎掷嗟龋⒒蚴侗穑òɑ蛲纭⒉畋鸨泶铩⒈昙腔虻龋┑scRNA-seq数据处置惩罚和剖析办法。只管其中大部分软件经由偕行评议且在其论文中也彰显了优点,但它们自己的较量可能保存偏好(bias),其可靠性尚未获得系统性检测(benchmark)。
近年来泛起了一些划分针对差别表达、聚类、插补、轨迹推断、基因调控网络推断中剖析的第三方系统性检测,通常使用大宗的实验数据和仿真数据作为基准参考,来评估多个同类型要领在各项指标上的性能优劣。虽然实验数据因其真实性较好,通常作为工具评估的“金标准”,但实验数据的获取和适合性也保存问题。相较量而言,仿真数据具有能快速爆发、经济、扩展性好等优点,可以作为工具评估的“银标准”。克日,中科院北京基因组所(国家生物信息中心)张治华研究团队与扬州大学孙磊副教授联合在生物信息学著名期刊Briefings in Bioinformatics揭晓了题为SimCH: simulation of single cell RNA sequencing data by modeling cellular heterogeneity at gene expression level的研究型论文,推出了一款用于爆发scRNA-seq仿真数据的软件--SimCH。SimCH是一种半参数化(semi-parametric)的天生模子,它基于实验数据预计统计学模子参数,并提供应用户修改参数(如细胞数目、基因数目、测序深度、是否零膨胀)的接口,主要模式有SimCH-flex、SimCH-fit、SimCH-copula及扩展模式SimCH-ext。SimCH能通过高斯Copula模子在仿真数据中保存实验数据的基因共表达信息。通过设置合适的参数,SimCH爆发的仿真数据能够很好地拟条约质性/异质性+UMI/非UMI手艺的scRNA-seq实验数据。实验效果批注SimCH的整体性能优于现盛行的仿真工具Splat和2021年推出的仿真工具scDesign2。
SimCH可应用于评估诸如细胞聚类、差别表达剖析、轨迹推断、插补等差别类型的盘算要领性能。研究职员还发明,基因共表达信息与数据样本的异质性亲近相关。SimCH能够有力支持scRNA-seq盘算要领的系统性检测,助力单细胞组学研究。
孙磊副教授为本文第一作者,孙磊和张治华研究员为配合通讯作者,硕士研究生王公铭加入了软件开发。项目获得国家自然科学基金的资助。
论文链接

SIMCH运行框架图






