CAAI理事长戴琼海院士等开发细胞显微图像与基因数据融合分析的人工智能方法—MUSE - 学会新闻

自从17世纪荷兰科学家列文虎克应用显微镜观察生物细胞以来，细胞形态学的差异性一直作为研究器官、组织内在结构的重要依据，是器官的机理特征研究与复杂疾病的致病特征解析的基础手段。近年来随着单细胞基因组学技术的发展，通过基因表达的差异性来揭示组织器官的异质性成为新的研究方法，为许多重大研究计划（如人类细胞图谱、人类生物分子图谱）的提供了技术支撑。这两种方法分别从不同的维度提供了组织的解析手段，如果将二者结合，能否突破单一方法的观测局限，实现更高程度的器官、疾病特异性的分辨力（图1）？

图1. 多模态融合的优势：基于形态学（x轴）可以分辨出小细胞与大细胞类型；基于基因表达水平（y轴），可以分辨出高、中、低表达的细胞类型；通过两个模态融合，可以进一步完整解析出组织内全部的细胞类型。

基于课题组在光学显微技术（Cell 2021，Nature Photonics 2019, 2020），单细胞基因解析技术（Nature Methods 2019）以及人工智能的交叉应用（Nature Methods 2021, Nature Machine Intelligence 2019）的积累，2022年3月28日，UCSF的Lani F. Wu、Steven J. Altschuler和清华大学戴琼海院士团队合作（共同一作为鲍峰和Yue Deng）在Nature Biotechnology上发表了文章Integrative spatial analysis of cell morphologies and transcriptional states with MUSE，提出了细胞显微图像与基因数据融合分析的人工智能方法，在包含脑、阿兹海默症的多种生物问题研究中，展示图像与基因的融合能大幅提升我们对于复杂器官空间结构与疾病发展解析的认知能力。

图像与基因作为两种完全不同的模态，其信息的呈现规则不同，分析的方法也存在极大的差异。因此，当同时考虑二者时，需要准确识别每个模态与组织结构与疾病特征相关的关键信息，平衡各自对于组织特异性的贡献，同时避免模态的污损信息对于另一个模态有效信息的损害。针对这个问题，文章提出了多模态结构嵌入的表示学习方法（multi-modal structural embedding, MUSE），通过三个步骤实现了两个模态信息的有效融合。1) 单模态的特征学习：输入原始特征x， y分别变换到隐空间表示hx，hy；2) 单模态标签学习：对单模态的表示 hx ，hy 进行聚类，得到每个模态可以分辨出的细胞群体lx ，ly ；3) 融合特征学习：将单模态特征hx 与hy 融合变换。整个框架通过自监督与自重构两个学习目标的约束下进行优化。自重构保证了融合的特征表示（z）保存了每个模态的大部分信息；自监督则保证单一模态中细胞类型之间的差异在融合的特征中能够继续保留。

利用提出的方法，文章在多种技术产生的真实数据上进行了实验。seqFISH是加州理工学院Long Cai教授提出的显微转录测序的技术。由于多轮成像的要求，一般测序深度较浅，但可以额外提供细胞的荧光显微图像。基于seqFISH+显微空间转录组采集的小鼠大脑皮层的数据（Nature, 2019），文章测试了在有限的基因数目条件下（n=500）的对于大脑皮层结构解析的能力。现有的基因分析方法识别出了三个大脑皮层区域；与之相比，荧光图像与基因的融合学习方法将全部四个大脑皮层区域准确识别出来，并且在每个区域内部提供了更精细的细胞类型解析（图2）。分析展现了细胞的荧光显微图像可以提供额外、互补的信息，增强对于复杂组织结构的探测能力。

图2. 基于seqFISH+技术（Nature, 2019）采集的小鼠大脑皮层数据，基因单模态分析（上）与图像-基因融合分析（下）得到的皮层细胞类型结果

空间转录组技术（Spatial Transcriptomics）可以对组织的不同空间位置进行标记并测序，在生物医学研究中有着广泛的应用。但其每个区域的测序结果是该区域多个细胞的混合基因表达，造成对于组织内部细胞类型的识别能力相对下降。文章进一步对胰腺导管癌的空间转录测序数据与对应的H&E染色切片（Nature Biotechnology 2020）进行了分析。基因数据单独分析仅可以将整个组织简单划分为四个区域，其中包含了一个癌症组织区域（图3）。然而，通过对病人组织进行基因拷贝变异数分析，发现癌症实际由两种细胞变异导致。与之相比，利用文章方法融合了图像的分析结果，可以在组织切片中识别出两个不同的癌症组织区域（图3），为进一步深入探索癌症异质性与空间微环境的交互提供了方法。

图3. 胰腺导管癌的基因单模态分析与联合分析得到的细胞类型空间分布

阿兹海默症是对老年人认知能力具有重大危害的疾病，其产生原因复杂。一般来说，明显的疾病标志是病人大脑的Abeta多肽会显著增加。探索Abeta如何影响邻近的神经细胞的正常功能对于增加对疾病产生的生物理解具有重要意义。文章进一步对包含多个疾病发展时间节点的小鼠阿兹海默症大脑数据进行分析（Cell 2020）。每个小鼠大脑包含了两张连续的切片，其中一张进行了空间转录组测序，另一张标记Abeta的位置并进行荧光成像。通过文章中提出的联合嵌入方法，将每个空间测序位置与对应的Abeta荧光成像区域进行联合的分析。方法同时识别了疾病的时间发展轨迹与与空间分布差异。

文章还进一步在结肠组织切片等数据上进行了分析验证。文中提出的方法还可以拓展到更多生物模态分析，以及进行两个以上的模态数据分析，为复杂生物过程的理解提供了基础的工具。

转自 BioArt 责编 | 兮

原文链接：https://www.nature.com/articles/s41587-022-01251-z

中国人工智能学会

2022年04月07日

声明：此文版权归原作者所有，若有来源错误或者侵犯您的合法权益，您可通过邮箱与我们取得联系，我们将及时进行处理。邮箱地址：cmit@vip.qq.com