Nature Reviews Genetics|深圳先进院全面总结多模态谱系示踪数据计算方法
谱系示踪是解析生命发育、组织再生及疾病演化规律与机制的关键技术手段。近年来,DNA条形码谱系示踪技术快速发展并逐渐走向成熟。特别是其与单细胞组学和空间组学技术的深度融合,使研究者能够在单细胞分辨率下同时获取细胞谱系历史与分子状态信息,为系统揭示体细胞动态演化与命运决定规律提供了重要的方法学基础。
5月18日,beat365在线体育app定量合成生物学全国重点实验室、合成生物学研究所胡政研究员与中山大学生命科学学院贺雄雷教授在Nature Reviews Genetics发表题为Computational approaches for multimodal lineage tracing的长篇综述论文,系统总结了多模态谱系示踪分析面临的计算挑战和最新方法进展,围绕单细胞谱系重构、细胞命运图谱推断和细胞命运基因程序分析三方面,阐述了计算方法如何将谱系信息与单细胞多组学信息整合,用于解析细胞命运决定的动态过程及其调控机制。
从单细胞“快照”到细胞命运“历史记录”
单细胞组学已经能够在高维分子空间中精细刻画细胞类型和状态,但这类数据通常只能反映采样时刻的分子特征,难以直接揭示不同细胞状态之间的历史关系和转变路径。谱系示踪为这一问题提供了关键的时间信息:它记录细胞之间的亲缘关系和克隆结构,使研究者能够判断不同细胞群是否来源于相同祖先、分化分支在何时形成,以及某些命运偏向是否已在早期祖细胞中决定。单细胞组学刻画细胞当前的分子状态,谱系示踪则提供细胞之间的历史亲缘关系;二者结合后,研究者才能进一步分析不同细胞状态之间如何相互关联,并追踪这些状态在发育或疾病演进过程中的来源与转变(图1)。
这种整合正在推动发育、再生和疾病研究从静态状态描述转向动态过程解析。在胚胎发育中,它可用于追踪祖细胞如何逐步产生不同组织和器官;在组织修复中,它有助于识别参与再生的关键细胞来源及其状态转换;在肿瘤和免疫研究中,它则可用于解析克隆扩增、耐药演化和免疫细胞功能分化等过程。由此,多模态谱系示踪为连接细胞亲缘关系、分子状态和命运转变提供了重要框架。
多模态谱系示踪数据的计算挑战
该文章首先指出,多模态谱系示踪的核心难点来自两类信息的天然不匹配:谱系信息通常是离散、低维、树状的亲缘关系,而分子测量则是连续、高维、带噪声的细胞状态快照。如何把细胞谱系树与高维转录组或多组学“流形”有机整合,是后续所有生物学解释的基础。
文章概括了四个主要挑战。第一是大规模细胞谱系树重建:目前单细胞谱系示踪实验可同时记录成千上万乃至更多细胞的谱系信息,但树拓扑空间随细胞数呈爆炸式增长,DNA条形码突变热点、数据缺失及测序错误会进一步干扰分析。第二是离散谱系树与连续分子状态的整合:谱系相近并不必然意味着表达状态相似,同一细胞类型也可能由不同谱系分支独立产生,因此简单叠加两类信息往往不足以解释命运决定。第三是祖先状态推断:单细胞测序的“细胞破坏性”导致只能观测末端细胞状态,而真正启动命运偏转的调控事件可能发生在早期祖先细胞中,通常未被采样捕获。第四是噪声和数据缺失(dropout):无论是体细胞突变、CRISPR-Cas9 编辑条形码还是转录组测序,都存在技术噪声和稀疏性,若模型忽略这些不确定性,后续命运推断和基因程序识别都可能被系统性偏差放大。
基于动态条形码的细胞谱系重构
谱系重构是单细胞谱系示踪的基础。文章将谱系信息来源概括为两大类:一类是细胞在体内自然积累的谱系标记,包括体细胞突变、拷贝数变异、DNA 甲基化和线粒体突变等;另一类是人工引入的合成条形码,尤其是 CRISPR编辑系统产生的动态条形码。前者直接记录细胞在真实组织环境中的历史,因而特别适合用于人类组织发育和肿瘤演化等研究,但这类信号通常较为稀疏,且容易受到测序深度、等位基因数据缺失和拷贝数改变等因素影响。相比之下,CRISPR 动态条形码具有更强的实验可控性和更高的记录密度,能够在预先设计的靶位点上随细胞分裂持续积累编辑事件,从而在实验体系中高通量记录细胞历史。
围绕这两类数据,领域内已发展出多种谱系推断方法。文章主要针对 CRISPR 条形码的谱系重构算法,总结了不同靶位点编辑速率不均一、热点编辑导致的趋同突变、条形码信号饱和、条形码掉落以及编辑事件不可逆等噪音因素。除单独利用谱系标记外,文章还讨论了将转录组信息纳入谱系重建的策略。这类方法尝试在条形码证据不足或分支关系存在歧义时,借助细胞状态的连续变化提高谱系重构准确性(图2)。
细胞命运图谱的定量推断
在完成谱系关系构建之后,进一步的问题是如何利用这些谱系关系理解细胞状态的转变过程。谱系树或克隆条形码不仅提供细胞之间的亲缘关系,也为推断命运偏向、状态转移方向和细胞可塑性提供了关键时间线索。围绕这一目标,文章将相关方法概括为两类:一类方法侧重于建立细胞状态变化的动力学模型,通过微分方程、随机过程或速度场描述细胞群体如何在状态空间中移动;另一类方法则从优化角度出发,利用最优传输、图优化或多源相似性整合,估计不同细胞状态之间的转移关系和转移强度。这些方法使研究者能够从多时间点克隆追踪或谱系解析的单细胞数据中识别早期命运偏向、状态转移路径以及重复出现的分化模式。
此外,谱系信息还可用于推断实验中无法直接观测的祖先细胞状态。由于单细胞测序通常只能测量谱系树末端细胞的分子状态,真正驱动命运分化的调控事件发生在更早的祖细胞阶段。因此,祖先状态推断方法尝试从末端细胞的基因表达谱和谱系关系反推祖先细胞的潜在分子状态,从而连接细胞历史与命运决定。近年来,谱系-转录组联合学习和深度学习模型也开始被用于这一领域,通过表征学习、对比学习或多任务学习整合谱系和表达信息,在命运预测、状态嵌入和跨数据集迁移等任务中展现出潜力(图3)。
谱系命运基因程序分析
谱系示踪计算分析的一个重要目标,是从细胞历史中识别驱动命运选择的基因程序和调控网络。不同于仅在单一时间点比较不同细胞类型的基因表达差异,谱系信息可以帮助研究者判断某些表达模式是在早期祖细胞中已经出现,还是在后续分化过程中逐步形成;也可以区分某些基因程序是特定谱系分支所特有,还是在不同谱系中反复出现并共同指向相似的终末命运。对于发育、再生和疾病演进等过程而言,这类分析有助于把细胞状态变化与其历史来源联系起来,从而更准确地识别潜在的命运决定因子。
围绕这一目标,相关方法不再只是寻找差异表达基因,而是将基因表达模式放到谱系结构中进行分析:有的方法关注谱系相近细胞之间是否共享相似的表达模块,有的方法通过表征学习识别与谱系分支耦合的基因程序,还有的方法利用可视化或重复谱系基序分析,发现不同谱系中反复出现的调控模式。结合命运图谱推断方法,研究者还可以进一步筛选与特定终末命运、状态转移路径或分化分支相关的候选调控因子。由此,多模态谱系示踪不再停留于描述细胞如何分化,而是进一步追问哪些基因网络参与并塑造了这一过程(图4)。
未来展望
随着该领域数据快速增加,如何系统评估算法并选择适合的方法成为关键。文章指出,理想的基准体系需要结合模拟数据、真实实验数据和正交验证。模拟数据可以提供已知的谱系树、状态转移和基因表达动态,用于定量评估算法表现;而具有明确发育过程的真实谱系解析单细胞数据集,如线虫胚胎发育和小鼠胚胎发育数据,则可为计算推断提供具有生物学依据的验证参照。此外,文章还根据谱系示踪数据类型、分析目标和生物学假设,总结了不同计算方法的适用场景,为研究者选择合适的多模态谱系示踪分析工具提供了指导(图5)。
展望未来,文章指出多模态谱系示踪计算方法的发展方向。首先,谱系示踪将进一步与空间组学技术结合。空间谱系示踪能够把克隆结构及谱系关系直接映射到组织空间中,从而更好地分析组织结构、细胞间互作和局部微环境如何影响细胞命运演化。其次,动态谱系图谱需要与多尺度机制模型结合,将细胞状态在时间和空间中的变化,与驱动命运决定的基因调控网络和信号通路联系起来,进而解释从单细胞分化到组织形态发生和器官形成的连续过程。第三,谱系示踪数据有望为“虚拟细胞”的AI训练提供更接近因果关系的时间约束,帮助模型从单纯学习高维相关性走向更具机制解释力和泛化能力的细胞命运预测,从而构建“动态虚拟细胞”。最后,面向人类临床样本的应用,需要更好地利用DNA 甲基化、线粒体变异以及体细胞嵌合变异等内源性谱系标记,发展能够处理更深谱系分辨率、更多组学模态和不同时间尺度记录信号的计算框架。
综上,该文章系统总结了单细胞谱系示踪多模态数据计算分析的核心挑战、方法原理和发展趋势。随着高质量谱系示踪数据、统计模型和人工智能方法的发展,谱系示踪有望把发育、再生、肿瘤和疾病等研究统一到一个动态、定量、可预测的细胞演化理论框架中,推动研究者更深入地理解细胞在时间、空间和分子尺度上的演化规律与调控机制。
beat365在线体育app为第一单位和最后通讯单位。beat365在线体育app与厦门大学联合培养博士生王琨为文章的第一作者,beat365在线体育app定量合成生物学全国重点实验室、合成生物学研究所胡政研究员与中山大学生命科学学院贺雄雷教授为共同通讯作者。该研究得到国家自然科学基金、国家重点研发计划、中国科学院战略性先导科技专项(B类)以及深圳合成生物学创新研究院等项目支持。

文章上线截图

图1|多模态单细胞谱系示踪的方法学框架

图2|基于CRISPR-Cas9条形码的单细胞谱系重构

图3|基于多模态谱系示踪的细胞命运图谱推断方法

图4|谱系命运基因程序的计算分析

图5|多模态谱系示踪计算方法的选择
附件下载: