技术支持
Support
ChIP测序中的input有多重要?实验、数据分析都离不了
2019-03-24

input有多重要?

无论是实验还是数据分析都离不开input。input是ChIP实验中的一种阳性对照,样品经过超声破碎后取出一部分作为input,input不进行ChIP实验,因而包含样本超声后释放的所有DNA、蛋白质。

首先,input可以帮助检测超声破碎的效果,以及目的蛋白在样品中的表达情况。

其次,input可以帮助判断ChIP结果,通过input和IP(抗体免疫沉淀获得的目的蛋白)对比,判断ChIP获得的是否为目的蛋白,以及ChIP的效果。若IP条带较input明显或差不多,说明ChIP富集效果较高,若IP条带较浅,说明ChIP富集效果一般。

最后, ChIP测序数据分析时更离不开input,input是寻找结合峰(也就是Peak Calling)的定盘星。在ChIP测序分析中,我们将input和IP的reads平均覆盖深度做归一化处理,采取input的reads作为背景,使用MACS软件对比input和IP的reads的归一化平均覆盖深度(normalized average depth),进行Peak Calling。

 

 

有input,才有Peak Calling

                 

 

举个栗子,上面这张图是在组蛋白H3K4me3的ChIP测序项目KC2018-CXXX中的一个结果图,它展示了基因转录起始位点至终止位点(TSS-TES)及上下游3kb范围内的input和IP的reads的分布,横坐标为基因位置,纵坐标为reads的覆盖深度(归一化)。

它可以反映组蛋白H3K4me3修饰分布情况:在该范围内input由于没有富集,其reads分布较为平均,而IP的reads覆盖深度则有明显的变化:在TSS附近显著增加,然后在TSS-TES内逐渐降低,在TES处达到最低。说明在TSS附近是组蛋白H3K4me3修饰分布较多的位置,而往TES处,H3K4me3的分布逐渐减少。

对比input和IP的reads的归一化平均覆盖深度,进行Peak Calling。上图即是选取筛选到Peak的基因,展示这些基因在TSS上下游10kb区域的reads分布(Peak在TSS上下游的分布):在TSS附近出现显著的结合峰,与文献报道的H3K4me3的结合特征相符。

进一步,我们还可以从上面这张图看到筛选到peak的每一个基因的reads的分布情况,上图中横坐标依然是位置,纵坐标则是不同的基因,reads的覆盖深度用不同颜色表示,红色表示覆盖度高,也就是出现峰的位置。

这张图类似转录组测序中的热图,依次展示了每一个有结合峰的基因(由高到低排列),既全面有力的展示了目标蛋白(组蛋白)在全基因组范围的分布/结合,又可以看到每一个基因上的分布/结合情况。我们在不少文献中都可以看到这张图。

 

没有input的ChIP不靠谱

在没有IP实验的条件下,仅对基因组DNA建库测序,reads应该是均匀的覆盖在基因组上。如果有免疫沉淀(IP)实验,由于IP抗体捕获区域存在明显的富集,只要是蛋白结合区域,其相对于其它区域都将出现一个明显的“峰”,而其它区域将会是均匀的低覆盖。这种条件下不需要input作为背景,只需要IP样品在基因组上存在“峰”就可以认定为Peak,如下图所示。

非Peak区域覆盖均匀且较低,可以不需要input作为背景。(横坐标显示基因位置,纵坐标表示reads数。)

但是,理想很丰满,现实太骨感。实际情况并不是理论假设的那样。由于扩增的偏好性、染色质构象问题、大量的重复序列等问题,单纯地对基因组DNA建库测序,reads并不是均匀地覆盖在基因组上,而是像下图所示的情况一样(input样品),本身就存在覆盖度不均一的现象。即使IP实验中没有被蛋白结合的区域,仍然存在着很多的“峰”,这个时候如若不采用input来作为对照将这部分“峰”扣除掉,就会带来大量的假阳性结果。

右边绿色区域标注的input和IP区域,两者均出现了几乎相同的“峰”,这不是因为蛋白结合而引起的,是本身存在的偏好性导致reads覆盖不均;而左侧红色区域标注的input和IP区域,虽然input有一些低矮的“峰”,但是IP样品的“峰”更高,这才是蛋白明显富集的结果。

将input作为背景,可以排除掉假阳性峰,是一种更为科学的分析方法,正因如此,将input作为背景用于Peak Caling也逐渐成为了主流的做法。