文献解读 | Virtual Cell Challenge - “虚拟细胞”的图灵测试里程碑!

2025-07-11

IMG_256

虚拟细胞(Virtual Cell)作为人工智能与生物学的交叉前沿领域,旨在通过计算模型预测细胞对基因扰动(如CRISPR编辑)或药物处理的响应。早期研究受限于数据和技术,而近年来单细胞测序(scRNA-seq)和基因编辑技术(如CRISPRi)的突破为这一领域注入了新动力。然而,缺乏标准化评估框架限制了模型的发展。

为此,2025年6月26日,Arc Institute发起”Virtual Cell Challenge”在国际顶刊Cell发表了题为“ Virtual Cell Challenge: Toward a Turing test for the virtual cell”的评论文章,正式推出了虚拟细胞挑战赛,通过开放竞赛推动虚拟细胞模型的标准化和性能提升。

IMG_257

一、虚拟细胞挑战赛的任务设计

Virtual Cell Challenge的核心任务是开发能够预测细胞对基因扰动的转录组响应的AI模型,重点关注模型在跨细胞类型(cell context)的泛化能力。通过年度公开竞赛,提供评估框架,专用数据集和模型开发平台,加速虚拟细胞模型的发展。

1.首届挑战赛招募

聚焦在人类胚胎干细胞系(H1 hESC)中,预测单基因扰动的转录组效应,且该扰动的效应已在至少一种其他细胞背景中被报道过。

(Note:粒曼hESC H1细胞内已完成数千个基因敲除细胞池现货细胞,欢迎官网查询)

挑战模式:采用“少样本适应” 策略,提供部分 H1 hESC 扰动的表达谱数据,供参赛者调整模型后,预测同一细胞类型中未见过的扰动响应。

2.严格的评分标准

设计三大互补指标,确保模型兼具生物学意义与技术鲁棒性:

  • 差异表达分数(Differential Expression Score)

评估预测差异表达基因的准确性(如与实验测定的差异基因重叠率)。

反映模型对关键生物标志物的捕捉能力。

  • 扰动区分分数(Perturbation Discrimination Score)

衡量模型区分不同基因扰动效应的能力(如通过相似性排序)。

避免模型仅预测“通用”差异基因而忽略扰动特异性。

  • 全局误差(Mean Absolute Error, MAE)

计算所有基因表达预测值与真实值的平均绝对误差。

确保模型对非差异表达基因也有准确预测。

综合评分,结合上述指标,设置最低阈值以平衡模型性能,避免单一指标过优。

3. 高质量的数据资源

数据集构成:

  • 训练集:150 个基因的CRISPRi扰动数据(约15万单细胞)。
  • 验证集:50 个基因扰动数据,用于竞赛实时排行榜。
  • 测试集:100 个未公开扰动数据,用于最终模型评分。

数据来源:Arc Institute 生成的 H1 hESC 单细胞 RNA 测序(scRNA-seq)数据(使用CRISPRi 技术,覆盖 300 个基因,约 30 万细胞),结合Virtual Cell Atlas 和公共扰动数据集。

粒曼生物自2023年开始,国内唯一一家提供超高通量基因编辑细胞制备服务,参与到中国虚拟细胞模型建立,为虚拟细胞模型的快速发展提供了可靠的样本来源支持。

参考阅读:文献解读|人工智能虚拟细胞:基因编辑与扰动蛋白质组学的未来

4. 虚拟细胞模型的创新性

标准化基准:首次提供高质量、可重复的基因扰动数据集(H1 hESC),填补领域空白。

生物学复杂性:要求模型整合细胞类型、状态、培养条件等多维度背景信息。

实用导向:通过多指标评估,避免过拟合单一指标(如仅优化MAE可能忽略生物相关性)。

IMG_258

 

二、基因编辑与单细胞测序在虚拟细胞中的应用

CRISPR干扰(CRISPRi)与单细胞测序是构建虚拟细胞模型的核心技术。在竞赛数据生成中发挥了关键作用:

  • 高精度扰动:CRISPRi通过dCas9(失活Cas9)与转录抑制因子(如KRAB结构域)融合,靶向特定基因的启动子或增强子区域,在不切割DNA的情况下抑制基因表达。不同于小分子扰动预测,CRISPRi能精确靶向300个选定基因,确保实验的可控性和可重复性。
  • 单细胞分辨率:结合单细胞RNA测序(scRNA-seq),单次实验可捕获约30万个单细胞,覆盖300多个基因扰动,可在单细胞水平量化基因表达变化,揭示异质性响应。
  • 超越表型预测:在基因表达层面的精细预测,而不仅是表型分类。

从而在数据层面上提供高精度、可重复的扰动-表型关联数据。在科学层面,推动虚拟细胞从单基因预测向复杂网络模拟演进,为精准医学和合成生物学奠定基础。

参考阅读:技术专题 | CRISPRi干扰技术:基因调控新工具【收藏】

 

三、未来方向:虚拟细胞的快速发展与进步

  • 整合多组学数据(转录组、蛋白质组、表观遗传等)。
  • 开发逆向设计工具,从目标表型反推最优基因编辑策略。
  • 推动虚拟细胞在精准医疗(如个性化疗法)中的应用。

未来需进一步优化编辑工具、扩展多组学整合,并探索虚拟细胞在逆向设计(如从目标表型反推最优基因编辑策略)中的应用潜力。

 

四、结语

虚拟细胞挑战赛不仅仅是一场比赛,更是人类理解生命本质的一次伟大探索。Virtual Cell Challenge通过标准化基准和高质量基因编辑数据集,为虚拟细胞模型的开发与评估提供了首个开放平台。基因编辑技术不仅是数据生成的引擎,更是验证模型预测能力的“金标准”。未来需进一步融合多模态数据,推动虚拟细胞成为生物学研究和医学转化的核心工具。  

参考文献

Yusuf H. R,Tony J. H,et al.  Virtual Cell Challenge: Toward a Turing test for the virtual cell. Cell. 2025 Jun 26; 188(13):3370-3374. doi: 10.1016/j.cell.2025.06.008. PMID: 40578317.