文献解读 | Virtual Cell Challenge - “虚拟细胞”的图灵测试里程碑!
2025-07-11
虚拟细胞(Virtual Cell)作为人工智能与生物学的交叉前沿领域,旨在通过计算模型预测细胞对基因扰动(如CRISPR编辑)或药物处理的响应。早期研究受限于数据和技术,而近年来单细胞测序(scRNA-seq)和基因编辑技术(如CRISPRi)的突破为这一领域注入了新动力。然而,缺乏标准化评估框架限制了模型的发展。
为此,2025年6月26日,Arc Institute发起”Virtual Cell Challenge”在国际顶刊Cell发表了题为“ Virtual Cell Challenge: Toward a Turing test for the virtual cell”的评论文章,正式推出了虚拟细胞挑战赛,通过开放竞赛推动虚拟细胞模型的标准化和性能提升。
一、虚拟细胞挑战赛的任务设计
Virtual Cell Challenge的核心任务是开发能够预测细胞对基因扰动的转录组响应的AI模型,重点关注模型在跨细胞类型(cell context)的泛化能力。通过年度公开竞赛,提供评估框架,专用数据集和模型开发平台,加速虚拟细胞模型的发展。
1.首届挑战赛招募
聚焦在人类胚胎干细胞系(H1 hESC)中,预测单基因扰动的转录组效应,且该扰动的效应已在至少一种其他细胞背景中被报道过。
(Note:粒曼hESC H1细胞内已完成数千个基因敲除细胞池现货细胞,欢迎官网查询)
挑战模式:采用“少样本适应” 策略,提供部分 H1 hESC 扰动的表达谱数据,供参赛者调整模型后,预测同一细胞类型中未见过的扰动响应。
2.严格的评分标准
设计三大互补指标,确保模型兼具生物学意义与技术鲁棒性:
- 差异表达分数(Differential Expression Score)
评估预测差异表达基因的准确性(如与实验测定的差异基因重叠率)。
反映模型对关键生物标志物的捕捉能力。
- 扰动区分分数(Perturbation Discrimination Score)
衡量模型区分不同基因扰动效应的能力(如通过相似性排序)。
避免模型仅预测“通用”差异基因而忽略扰动特异性。
- 全局误差(Mean Absolute Error, MAE)
计算所有基因表达预测值与真实值的平均绝对误差。
确保模型对非差异表达基因也有准确预测。
综合评分,结合上述指标,设置最低阈值以平衡模型性能,避免单一指标过优。
3. 高质量的数据资源
数据集构成:
- 训练集:150 个基因的CRISPRi扰动数据(约15万单细胞)。
- 验证集:50 个基因扰动数据,用于竞赛实时排行榜。
- 测试集:100 个未公开扰动数据,用于最终模型评分。
数据来源:Arc Institute 生成的 H1 hESC 单细胞 RNA 测序(scRNA-seq)数据(使用CRISPRi 技术,覆盖 300 个基因,约 30 万细胞),结合Virtual Cell Atlas 和公共扰动数据集。
粒曼生物自2023年开始,国内唯一一家提供超高通量基因编辑细胞制备服务,参与到中国虚拟细胞模型建立,为虚拟细胞模型的快速发展提供了可靠的样本来源支持。
参考阅读:文献解读|人工智能虚拟细胞:基因编辑与扰动蛋白质组学的未来
4. 虚拟细胞模型的创新性
标准化基准:首次提供高质量、可重复的基因扰动数据集(H1 hESC),填补领域空白。
生物学复杂性:要求模型整合细胞类型、状态、培养条件等多维度背景信息。
实用导向:通过多指标评估,避免过拟合单一指标(如仅优化MAE可能忽略生物相关性)。
二、基因编辑与单细胞测序在虚拟细胞中的应用
CRISPR干扰(CRISPRi)与单细胞测序是构建虚拟细胞模型的核心技术。在竞赛数据生成中发挥了关键作用:
- 高精度扰动:CRISPRi通过dCas9(失活Cas9)与转录抑制因子(如KRAB结构域)融合,靶向特定基因的启动子或增强子区域,在不切割DNA的情况下抑制基因表达。不同于小分子扰动预测,CRISPRi能精确靶向300个选定基因,确保实验的可控性和可重复性。
- 单细胞分辨率:结合单细胞RNA测序(scRNA-seq),单次实验可捕获约30万个单细胞,覆盖300多个基因扰动,可在单细胞水平量化基因表达变化,揭示异质性响应。
- 超越表型预测:在基因表达层面的精细预测,而不仅是表型分类。
从而在数据层面上提供高精度、可重复的扰动-表型关联数据。在科学层面,推动虚拟细胞从单基因预测向复杂网络模拟演进,为精准医学和合成生物学奠定基础。
参考阅读:技术专题 | CRISPRi干扰技术:基因调控新工具【收藏】
三、未来方向:虚拟细胞的快速发展与进步
- 整合多组学数据(转录组、蛋白质组、表观遗传等)。
- 开发逆向设计工具,从目标表型反推最优基因编辑策略。
- 推动虚拟细胞在精准医疗(如个性化疗法)中的应用。
未来需进一步优化编辑工具、扩展多组学整合,并探索虚拟细胞在逆向设计(如从目标表型反推最优基因编辑策略)中的应用潜力。
四、结语
虚拟细胞挑战赛不仅仅是一场比赛,更是人类理解生命本质的一次伟大探索。Virtual Cell Challenge通过标准化基准和高质量基因编辑数据集,为虚拟细胞模型的开发与评估提供了首个开放平台。基因编辑技术不仅是数据生成的引擎,更是验证模型预测能力的“金标准”。未来需进一步融合多模态数据,推动虚拟细胞成为生物学研究和医学转化的核心工具。
参考文献
Yusuf H. R,Tony J. H,et al. Virtual Cell Challenge: Toward a Turing test for the virtual cell. Cell. 2025 Jun 26; 188(13):3370-3374. doi: 10.1016/j.cell.2025.06.008. PMID: 40578317.
上一页:
2025 /
07-11
所属分类:
行业新闻
相关资讯—
2025-07-11
2025-07-11