25 March 2023

Title:

SCALE: Single-cell ATAC-seq analysis via latent feature extraction

Bio:

Xiong Lei, postdoctoral fellow at MIT, graduated from the School of Life Sciences, Tsinghua University. The main research direction is the development of single-cell genome analysis tools using deep learning technology. The main work was published in the journal Nature Communications.

Introduction:

Cellular heterogeneity is a universal characteristic of life that extensively affects various biological processes, including development, neural activity, and tumorigenesis. For multicellular organisms, even though all cells have the same genome, the differences in epigenetic modifications regulating gene expression result in differential gene expression among different cell types, which leads to their distinct morphological and functional features. Therefore, it is crucial to understand and uncover the mechanisms underlying cellular heterogeneity at the epigenomic level.

Single-cell technology can accurately and efficiently isolate individual cells, and when combined with high-throughput sequencing technologies, can detect cell-to-cell differences at the DNA, RNA, and protein levels. It has been widely used in studying cellular heterogeneity. In recent years, the single-cell ATAC-seq (scATAC-seq) technique, which utilizes the Tn5 transposase to specifically label and detect open chromatin regions at the single-cell level, has revealed cell-to-cell differences at the level of gene expression regulation.

However, due to the limitations of high-throughput technologies, it is not feasible to effectively detect all signals in each individual cell. In addition, open chromatin regions in diploid genomes generally have only two copies at most, and the number of detectable open chromatin regions throughout the genome can reach hundreds of thousands, leading to the loss of many signals. As a result, scATAC-seq data has high dimensionality and sparsity, making data analysis extremely challenging.

In this paper, we developed a method called Single-cell ATAC-seq analysis via Latent feature Extraction (SCALE) by combining variational autoencoder and Gaussian mixture probabilistic model to analyze scATAC-seq data. Firstly, SCALE accurately models the probability distribution of scATAC-seq data and reduces the high-dimensional data to a low-dimensional space by extracting latent features, thus solving the problem of the curse of dimensionality. Since data from the same cell type are similar, we introduce a Gaussian mixture model to cluster cells and learn common features among cells of the same type through shared parameters, filling in missing information among cells of the same type and solving the problem of data sparsity.

We validated the performance of SCALE on datasets of varying quality from different experimental methods and platforms, and demonstrated that it outperformed other methods in visualization, clustering, and imputation of missing values. In addition, we found that the features extracted by SCALE not only explain the biological functions of cell populations, but also reveal potential batch effects in scATAC-seq experiments. The code is available at https://github.com/jsxlei/SCALE.

熊磊,MIT 博士后,博士毕业于清华大学生命学院。主要研究方向是利用深度学习技术开发单细胞基因组分析工具。主要工作发表在Nature Communications期刊上。

Background:

细胞异质性是生命的普遍特征,广泛影响着包括发育、神经和肿瘤等生命现 象。对于多细胞个体而言,尽管所有细胞的基因组是相同的,但是由于调控基因 表达的表观基因组不同,使得不同细胞的基因差异表达,从而呈现出不同形态功 能。因此,从表观基因组层面理解并揭示细胞异质性的机制非常重要。 单细胞技术可以准确高效地分离出单个细胞,并结合高通量测序技术,可以 检测单细胞精度的 DNA、RNA 和蛋白质等层面的细胞差异,广泛应用于细胞异质 性的研究。近年来不断发展的单细胞 ATAC-seq(scATAC-seq)技术借助 Tn5 转座 酶在单细胞水平上特异性地标记并检测染色质的开放区间,揭示了基因表观调控 层面的细胞间的差异。 然而,由于高通量技术的限制,无法有效检测每一个单细胞的所有信号;此 外,二倍体基因组的染色质上开放位点一般最多只有两个拷贝,而整个基因组的 能检测到开放位点的数目有几十万之多,导致许多信号丢失。因此,单细胞 ATAC-seq 数据具有异常的高维度和稀疏性等特点,使得数据分析变得极具挑战。 在本论文中,我们结合了变分自编码器和高斯混合概率模型,开发了对单细 胞ATAC-seq数据进行分析的方法,叫做Single-cell ATAC-seq analysis via Latent feature Extraction(SCALE)。首先,SCALE准确对单细胞ATAC-seq数据的概率 分布进行建模,并通过提取隐层特征的方式,将高维的数据降维至低维空间,解 决了维度灾难问题。由于相同类型的细胞数据类似,我们引入高斯混合模型对细 胞聚类并通过共享参数,学习同类型细胞的共有特征,实现了同类型细胞之间互 相填补缺失信息,从而解决了数据稀疏性问题。 我们在不同实验方法、实验平台来源的不同质量的数据集上验证了 SCALE 在 包括可视化、聚类、填补缺失值等方面的性能都显著地优于其他方法。此外,我 们还发现 SCALE 提取的特征不但可以用来解释细胞类群的生物学功能,还可以用 来揭示单细胞 ATAC-seq 实验中的潜在的批次效应。网址:https://github.com/jsxlei/SCALE

Introduction

这篇论文介绍了一种新的方法,称为Single-cell ATAC-seq analysis via Latent feature Extraction(SCALE),用于分析单细胞 ATAC-seq 数据。这种方法结合了变分自编码器和高斯混合概率模型,能够准确地对单细胞 ATAC-seq 数据进行建模,并通过提取隐层特征的方式将高维的数据降维至低维空间,解决了维度灾难问题。此外,该方法还利用高斯混合模型对细胞进行聚类,并共享参数学习同类型细胞的共有特征,填补缺失信息,解决了数据稀疏性问题。

该方法在不同实验方法、实验平台来源的不同质量的数据集上进行了验证,结果表明,在包括可视化、聚类、填补缺失值等方面的性能都显著地优于其他方法。此外,SCALE 提取的特征不仅可以用来解释细胞类群的生物学功能,还可以用来揭示单细胞 ATAC-seq 实验中的潜在批次效应。该方法的实现代码可以在GitHub上找到。

数据处理和分析:单细胞ATAC-seq数据具有高维度和稀疏性的特点,因此需要使用高效的算法和技术来处理和分析这些数据。目前已经有许多工具和方法被开发出来,但仍需要更好的算法来解决数据处理和分析中的问题。

样本量和信号噪声:由于单细胞ATAC-seq技术的限制,数据集的样本量往往较小,并且可能存在信号噪声。这可能会影响分析的可靠性和准确性,因此需要更好的方法来处理这些问题。

细胞异质性:单细胞ATAC-seq数据可以检测到细胞异质性,但如何从这些数据中解释细胞异质性仍然是一个挑战。需要更好的算法和技术来解释和分析细胞异质性。

数据标准化:由于单细胞ATAC-seq数据的来源和实验条件的不同,数据之间的差异可能很大。因此,需要更好的方法来标准化数据,以便进行比较和分析。

数据集成:单细胞ATAC-seq数据通常是在不同的实验条件下获得的,因此如何将这些数据集成起来并进行比较和分析也是一个挑战。需要更好的算法和技术来解决这个问题。

数据的噪声和批次效应:单细胞技术对细胞进行分离、扩增、测序等过程中存在噪声和批次效应,这些因素可能影响到数据的质量和可靠性。因此,需要开发更加准确和稳健的数据预处理和分析方法来应对这些挑战。

细胞异质性的复杂性:细胞异质性是多种因素交织作用的结果,包括基因组和表观基因组的变异、环境因素的影响、细胞间相互作用等等。因此,需要开发更加精细和多层次的分析方法来揭示细胞异质性的复杂性。

数据的高维稀疏性:单细胞测序数据通常具有高维稀疏性,即大多数基因在大部分细胞中都没有表达。这种特点会导致传统的机器学习算法不适用于单细胞数据的分析。因此,需要开发更加适合高维稀疏数据的分析方法。

细胞类型的鉴定和注释:单细胞数据通常需要对每个细胞的类型进行鉴定和注释。这需要利用一些生物学知识和数据库进行参考。但是,当前的参考数据库仍然存在一些不足,如注释不全面、存在误差等问题。

可重复性和标准化:单细胞技术还处于发展阶段,不同实验室、实验平台和分析软件可能会产生不同的结果,从而影响到数据的可重复性和标准化。因此,需要加强实验室间和平台间的标准化和共享,以提高数据的可比性和可重复性。



blog comments powered by Disqus