重庆大学| 主页焦点| 主页推荐| 网站地图| 使用帮助 RSS 我要投稿

重庆大学曾远松团队在Nature子刊《Nature Communications》发表研究论文

日期 : 2025-05-20

5月20日,Nature子刊《Nature Communications》在线发表了重庆大学大数据与软件学院曾远松团队研究论文,“CellFM: a large-scale foundation model pre-trained on tran omics of 100 million human cells”,开发了当前全球最大的单细胞基础模型。

单细胞测序技术的飞速发展,带来了海量数据,也伴随噪声、稀疏性和批次效应等挑战。如何使用统一的框架最大程度地利用这些数据,成为领域里亟待解决的问题。大语言模型(LLM)如ChatGPT等,已经在多个领域展现了强大的泛化能力,这为单细胞大语言模型的诞生提供了灵感。然而,现有的单细胞大模型大多受限于数据规模,性能难以突破瓶颈。

曾远松(第一作者兼第一通讯)联合中山大学、华为、新格元两家各领域龙头公司共同研发的单细胞基础大模型 CellFM 正式发表在 Nature Communications 杂志上。该模型基于超1亿个人类细胞进行训练(数据规模为同类模型的两倍以上),并依托广州超算中心的强大计算资源与华为昇腾芯片的高效算力,构建了一个超过8亿参数的模型,参数规模达同类模型的8倍以上。

图片1.png

亿级人类细胞数据×8亿参数:CellFM引领单细胞大模型升级

目前,面向单一物种的单细胞转录组大模型大多基于千万级细胞数据进行训练,模型的泛化能力和对复杂生物过程的表征能力仍存在一定局限。为此,研究团队收集了公开的人类单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,建立了目前已知最大规模的超过1亿细胞的高质量训练数据集;通过利用这些多样化的单细胞数据集,研究团队开发了一个具有8亿参数的模型CellFM(图1),这在规模和能力上是一个显著的飞跃,使其比当前的单一物种LLMs大8倍。CellFM的核心是ERetNet,这是一种为效率和性能而设计的Transformer架构变体,使研究团队的模型能够轻松处理庞大且复杂的数据集。研究团队的实验表明,CellFM在包括细胞注释、扰动预测和基因功能预测在内的各种单细胞下游应用中,性能超过了现有模型。随着单细胞RNA测序领域的不断发展,研究团队的工作有望激发科学界及更广泛领域的想象力。

图片1.jpg

图1 CellFM模型图

CellFM赋能高精度基因功能预测

基因功能预测是生命科学研究的基础。传统的生物学研究需要大量实验,而CellFM大模型通过虚拟预测,能够快速锁定功能靶点,依靠“计算先行、实验验证”,构建AI for Science高效研究新范式。CellFM可以对不同生物学功能的基因进行准确分类,在三种二分类问题中准确率(Accuracy,缩写ACC)都位列第一,如剂量敏感性任务取得最佳的ACC,较UCE和scGPT分别提升5.68%和5.86%,且UMAP可视化显示出更清晰的基因簇分布。

图片2.jpg

图2 各模型在3种基因功能二分类任务中的ACC对比。CellFM在3种任务中都获得了最高的ACC。

CellFM助力靶点预测与扰动响应模拟

CellFM能够模拟细胞对基因敲除、过表达或药物处理的响应,快速筛选潜在的药物作用或基因调控结果。用CellFM的基因嵌入向量替换经典扰动模型GEARS的嵌入向量,在Adamson和Norman数据集上,差异基因变化的Pearson相关系数在所有对比模型中最优。CellFM还能够根据扰动反向预测靶点基因,例如基于疾病样本中的异常细胞,逆推出可能导致该表型的关键基因或药物靶点。CellFM反向扰动预测的Top10命中率达81.8%,比scGPT高18.1%;且Top3命中率达到了scGPT的2倍,显著提升寻找靶点基因的效率。

图片3.jpg

图3 各模型扰动靶点基因预测命中率。CellFM的Top1-Top10命中率均领先其他模型。


作者介绍:

曾远松博士现任重庆大学大数据与软件学院弘深青年教师,2023年7月博士毕业于中山大学计算机科学与技术学院。曾博长期专注于“人工智能+”单细胞和空间多组学数据分析领域,并在Nature Computational Science、Nature Communications、Communications biology、Bioinformatics等期刊上发表了二十余篇文章。他主持了国家自然科学基金青年项目、国家资助博士后研究人员计划项目、中国博士后面上项目和中央高校基本科研业务费“基础与前沿交叉专项”(青年项目)等项目。此外,他还获得了2024年度ACM SIGBIO China“优博奖”和2024年度川渝科技学术优秀论文二等奖。

论文地址:https://www.nature.com/articles/s41467-025-59926-5

代码地址:https://github.com/biomed-AI/CellFM

来源:大数据与软件学院

作者:曾远松 蒲姝颖


作者 : 大数据与软件学院 曾远松 蒲姝颖

编辑:曹蔚

审核:商金艳   徐珺琢   

责编:韦丽