技术支持
Support
盘点单细胞转录组分析的那些坑
2019-06-21

 盘点单细胞转录组分析的那些坑

相信大家对常规转录组的分析流程都已经很熟悉了,有一些常规的bulk RNA-seq分析策略可以安全的应用到scRNA-seq数据上,比如测序数据质控(cutadapt, trimmomatic),比对(tophat, histat)等分析方法。不过在比对时也需要注意两点:

(1)如果建库过程中加入了spike-ins,在比对过程中需要把spike-in序列加到参考序列中;

(2)如果加入了UMI标签,在比对的时候需要先把UMI移除。

今天UMI转录组 小编主要来介绍一下单细胞转录组数据分析需要注意的地方。

1,过滤低质量细胞

在scRNA-seq分析中,有些细胞质量比较低,比如细胞处于凋亡状态,细胞中RNA发生降解等,这些细胞的存在会影响分析,因此我们第一步需要对细胞进行过滤。主要可分为三类:

(1)利用细胞检测到的基因数或者是reads比对率来判断技术噪音[1],但不管是基因检测数目还是比对率都跟实验方法有很大相关性。如果比对率太低,表明RNA可能发生了降解,或者文库有污染或者细胞裂解不完全。

(2)如果实验中加入了spike-ins,可以通过计算比对到内源性RNA和外源性RNA(spike-ins)的reads比例来过滤低质量细胞,比值偏低表明细胞中的RNA数量较低,细胞可丢弃。但是也需要注意其实当细胞状态不一样,比如处于不同细胞周期时,细胞的RNA数量是具有很大差异的。不过我们依然认为在一大群细胞中,spike-ins比例特别高的细胞在很大概率上应该被排除在外[2]。这里软件SinQC(Single-cell RNA-seq Quality Control)[3]就可以根据比对率和检测到的基因数来过滤细胞(图1)。

(3)根据整体的基因表达谱来定义技术噪音。比如对细胞进行聚类分析,PCA分析等,将outlier细胞删除[4],或者细胞表达中位值低于某一设定阈值时将该细胞过滤掉[5]。当然这种方法也存在误删具有真正生物学差异的细胞,因此在删除细胞时需要小心,可与上述另外两种方法连用。

2,基因表达谱标准化

在分析bulk RNA-seq数据的时候,针对不同文库进行reads count的矫正可以采用FPKM, TPM等方法,这些标准化方法隐含的一个假设条件是每个样本总的RNA量是差不多的(其实在很多情况下,这种假设有一定的误导性,比如单细胞转录组测序中每个细胞的RNA量是不一样的,最后构建的文库大小就不一样)。针对scRNA-seq数据进行标准化主要分以下几种情况[6]:

(1)不含UMI和spike-ins的scRNA-seq数据标准化

应用bulk RNA-seq标准化方法,如计算FPKM,RPKM等或者计算基因的reads count,然后对count值进行标准化,如size factor(DESeq), RLE(edgeR), TMM (edgeR)等。上面已经提过这种标准化方法应用的一个前提条件是样本总的RNA量是一样的,(其实没有spike-ins的情况下很难确定细胞中的RNA量),而且单细胞转录组建库过程中存在的3'偏好性使得现有的根据转录本长度进行表达值的矫正并不是非常适用单细胞测序(容易低估长转录本的表达,高估短转录本的表达),在使用时需要小心。

(2)加入spike-ins的scRNA-seq数据标准化

首先计算比对到感兴趣基因组(比如人类hg19)上的reads数和比对到spike-ins的reads数的比例,在所有细胞添加的spike-ins数量一致时,可以推断细胞间RNA数量差异。然后根据加入的spike-ins的数量,估计每个基因mRNA分子的绝对数量。

(3)带UMI的scRNA-seq数据标准化

在测序数量饱和的情况下,根据连接到每个基因的UMI数量直接衡量cDNA分子数目。

其实目前还没有很好的广泛应用的既考虑测序深度又考虑细胞尺寸(cell size)的scRNA-seq数据标准化方法。

3,评估技术噪音

在单细胞测序中起始RNA含量越低,技术重复样本的基因表达相关性也越低,因此生成标准化的基因表达谱之后,非常重要的一步是评估技术噪音(technical variability)。比较常见的一种方法是计算基因表达值的变异系数的平方(CV^2),对加入的spike-ins的CV^2进行回归分析,评估技术噪音基线,确定变异度高的基因,这些基因的表达变化可以反映细胞间的差异
​​

 

​​


 

       以上文章来自UMI转录组  ​,如有雷同请告知修正,如有转载请阐明出处,有需求请联络哦!