ChIP-Seq分析之ChIPQC结果含义

示例结果可以看: https://www.dropbox.com/s/sn8drmjj2tar4xs/ChIPQCreport - full dataset.zip?dl=1

首先映入眼帘的是总体报告:

其中有一些指标见过,一些没见过,像是SSD, RiP and RiBL这几列就是ENCODE计划提出的指标。就是评估了信号的分布,在富集区域、整个基因组、已知的artefact regions

总而言之,这些全部的指标可以分为4类:

切记:通过这些指标也不意味着实验就是成功的,相反亦然

包括了:read depth, read length, duplication rate

如果read depth, read length在样本间差异很大,就要引起注意了

由于之前已经过滤掉了重复reads,所以这里的duplication rate没什么用

包括了RiP, SSD, and RiBL

也叫FRiP,表示:the percentage of reads that overlap ‘called peaks’,也就是peaks包含的reads数占reads总数的百分比

可以理解成:信噪比(signal-to-noise)

根据感兴趣蛋白(POI,protein of interest)的不同,RiP值也差异较大:

上面图中看到,Nanog比Pou5f1的RiP值要高,而Pou5f1-rep2更是低的可怜,可以说明的是:Nanog样本富集效果更好

有两张图可以反映:

不过看箱线图发现,虽然Nanog的RiP较高,但这个分布和Pou5f1也相差太远,推测可能与read length 、 depth有关

表示基因组中信号值的标准差,可以反映reads在基因组中覆盖度一致性,越大越离散,就是高的越高,低的越低

我们希望看到:IP样本中这个值较大,说明富集区域信号很强 ,非富集区域信号较弱,因此它的标准差很大;而control样本最好就是标准差较小,不要有太大的波动

SSD值高虽然说明有的区域信号强,但不一定是ChIP的富集区域,一些blacklist区域也会存在较强的信号

【关于blacklist:】

我们这里的数据显示:Pou5f1比Nanog的SSD值要高,可能说明Pou5f1的富集效果更好,但不能确定,因为还需要确定Pou5f1的SSD高不是由于未知的artifact造成

有一张图可以反映:Coverage histogram

好的富集结果一般是:有一条尾巴(依然存在很多位点具有较高的测序深度);而像input样本这种低富集的,主要是包含背景,因此它的y轴很高,同时x轴很低

我们这个数据集中,尤其是 Nanog rep2样本,具有更粗壮的尾巴(Heavy tail,意思就是在曲线以下具有更大的空间) 。Nanog样本具有更多高深度的位点

综合考量:

Pou5f1的coverage不如Nanog,但SSD高于Nanog。说明Pou5f1存在某一块区域深度较高,但不是整体都高,可能存在blacklist区域

那么是否真的存在blacklist区域呢?还有再看一个指标:

也就是与已知blacklist有交集的reads占比。这个值越低越好

黑名单区域一般也是唯一比对,因此常规的去重复操作对它无效。这些区域一般是:着丝粒,端粒和卫星重复序列

黑名单区域的危害是:confound peak callers and fragment length estimation,因此需要追踪并去除比对到这些区域的reads

我们的数据中,RiBL的比例看上去还比较合理,并没有出奇的高。因此高SSD可能是因为存在更多容易破碎的开放染色质区域,或者存在hyper-ChIPable区域,与很多不相干的蛋白也能产生富集,导致假阳性

当然,如果 在peak calling之前去掉了黑名单区域,就没必须分析RiBL了

主要包括:FragLength and RelCC(又称Relative strand cross-correlation coefficient or RSC)

一般,RelCC在所有的ChIP样本中大于1,表示具有较高的信噪比;FragLength也应该与文库制备过程中设定的片段长度接近

一个高质量的ChIP实验,会在POI附近形成非常显著的reads富集,会在正负链发现双峰分布

Cross-Correlation scores的计算:Pearson’s linear correlation between coverage for each complementary base. These Pearson correlation values are computed for every peak for each chromosome and values are multiplied by a scaling factor and then summed across all chromosomes,就是先在正负链生成两个向量,表示某个碱基位点的reads数量,然后求这两个向量的相关性,并逐渐沿着shift size移动,最后得到一个相关性表

最后这个cross-correlation值算好,就会画在y轴上,x轴就表示shift size

<img src="https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2020-06-20-120928.png" alt="image-20200620200928712" />

一般这个cross-correlation plot会产生两个峰:

我们这里的数据中,Nanog 和 Pou5f1都能看到两个峰:

它就是根据cross-correlation的最大、最小值计算的

RSC值低可能是由于ChIP的质量差、测序reads质量差导致错配多、测序深度不够【其实可以理解为:RSC值低=》就是相关性计算的值低=》正负链没有足够的reads =》 也就是上述原因】

另外,数据集的结合位点太少(比如小于200)也会导致低的RSC【这个也很好理解,结合位点少,更别提位点正负链富集的reads数量了】。结合位点少的原因可能是生物因素(比如某一个因子在某一个特定组织中就这么几个位点)

Cross-Correlation Plots的例子

强信号:

下面这个例子是人类细胞的CTCF 转录因子(zinc-finger transcription factor)。使用一个好的抗体,转录因子一般会富集45,000 - 60,000个peaks。红线表示真正的peak,蓝色线表示read length

弱信号:
抗体不是特别有效,得到的峰也比较分散,在185-200bp间存在真的峰,另一个蓝色则是read length。对于弱信号的数据,read-length peak将占据主导地位

没有信号:
表示实验失败或者input样本,基本看不到fragment length这个峰
也就是在特定的结合位点附近,没有富集到reads

将peaks与基因组注释结合起来,看看reads主要富集在哪些区域

我们的数据中,“Promoters500” and “All5UTRs”的富集程度最高,也符合预期(Nanog和Pou5f1作为转录因子应该结合在这块区域)

这个形状根据抗体的类型存在差异:transcription factor, histone mark, or other DNA-binding protein such as a polymerase



  • 濡備綍閫氳繃CHIP-seq鍒嗘瀽閴村埆鍩哄洜鍚姩瀛愬拰澧炲己瀛
    绛旓細鍥犳鍙氳繃CHIP-seq鍒嗘瀽缁勮泲鐧戒慨楗扮殑鍒嗗竷瀵绘壘鍩哄洜鐨勫惎鍔ㄥ瓙鍖哄拰澧炲己瀛愬尯鍩熷強鍏舵槸婵娲绘垨鎶戝埗鍩哄洜琛ㄨ揪銆侶3K4me1鍙綔涓哄寮哄瓙鐨勬爣蹇楋紝H3K4me3浣滀负鍚姩瀛愭爣蹇椼傜爺绌惰〃鏄庯紝H3K4me1鍜孒3K4me3涓庡熀鍥犳縺娲荤浉鍏筹紝H3K4me3涓昏瀵岄泦鍦ㄨ浆褰曡捣濮嬩綅鐐归檮杩戠殑鍚姩瀛愬尯鍩燂紝鑰屽ぇ澶氭暟H3K4me1淇グ瀵岄泦鍦ㄥ寮哄瓙鍖哄煙锛汬3K27ac涓庡熀鍥犳縺娲荤浉鍏...
  • ChIP-seq鑳界爺绌跺摢浜涜泲鐧,鍙湁杞綍鍥犲瓙鍚?
    绛旓細鐮旂┒鐩存帴缁撳悎DNA鐨勮泲鐧芥垨鑰呰皟鎺ц繖绫昏泲鐧界殑鍥犲瓙閮藉彲浠ャ傝寮勬竻妤CHIP鏈川灏辨槸鐢ㄦ姉浣撴妸瀹冩墍璇嗗埆鐨勮泲鐧借川锛堝寘鎷湪CHIP杩囩▼涓粛鐒惰兘鍜岃繖涓泲鐧界粨鍚堢殑DNA鍜岃泲鐧借川绛夛級缁欏厤鐤矇娣涓嬫潵锛屽啀鍒嗘瀽杩欎釜鍏嶇柅娌夋穩鐗╅噷鐨凞NA搴忓垪銆傛墍浠ュ彧瑕佽兘淇濊瘉CHIP杩囩▼涓綘鍏虫敞鐨勮泲鐧藉拰鍏朵粬杞綍鍥犲瓙鐨勭粨鍚堜笉浼氳鐮村潖锛屽氨鍙互鏉ュ疄鐜颁綘鐨...
  • 浠涔堟槸CHIP-PCR?浠涔堟槸CHIP-chip?
    绛旓細chip-chip鏄煋鑹茶川鍏嶇柅鍏辨矇娣鎶鏈紙ChIP锛夊強涓庤姱鐗囨柟娉曠殑缁撳悎銆傚簲鐢 ChIP-chip鎶鏈浜庡ぇ瑙勬ā鎸栨帢椤哄紡璋冩帶淇℃伅鎴愮哗鍗撹憲锛屽悓鏃跺畠鍙互鐢ㄤ簬鑳氳儙骞茬粏鑳炲拰涓浜涚柧鐥呭鐧岀棁銆佸績琛绠$柧鐥呭拰涓ぎ绁炵粡绱婁贡鐨勫彂鐢熺殑鏈哄埗銆傜爺绌朵汉鍛樿繕鍙互鍒╃敤杩欓」鎶鏈紑鍙戜竴浜涙不鐤楁柟娉曘侰hIP-chip鎶鏈爺绌朵富瑕侀泦涓簬涓や釜棰嗗煙锛氬強杞綍鍥犲瓙鐨...
  • ChIP-seq鏁版嵁鍒嗘瀽(涓):浠巖aw reads鍒皃eaks
    绛旓細闄や簡bamCoverage锛宐amCompare涔熻兘灏哹am->bw锛屽苟涓斿悓鏃惰冭檻澶勭悊鍜屽鐓э紝浠ユ秷闄ゅ櫔澹般傚師鏂囨槸杩欐牱璇寸殑锛 To show ChIP binding signal surrounding TSSs or in gene bodies, read coverage was first calculated using the bamCompare tool (RPKM, Log2(ChIP/IgG) in deepTools.鍦╥gv涓嬮潰鐪嬬湅bed, bam, bw...
  • 鍗曠粏鑳ChIP-seq鎶鏈(CoBATCH)
    绛旓細涓虹悊瑙e櫒瀹樺姛鑳界壒寮傜殑鍐呯毊缁嗚優鍙戣偛鎻愪緵浜嗛噸瑕佺嚎绱傜畝鑰岃█涔嬶紝 CoBATCH鎶鏈槸绗竴涓叿鏈夋櫘閫傛с侀珮璐ㄩ噺銆侀珮閫氶噺鐨勫崟缁嗚優ChIP-seq鏂规硶锛岃鎶鏈皢鍦ㄥ崟缁嗚優姘村钩涓婁负瑙f瀽缁嗚優鍛借繍鍐冲畾鍜屽姛鑳藉紓璐ㄦх殑琛ㄨ閬椾紶璋冩帶鏈哄埗鎻愪緵寮烘湁鍔涚殑鏀寔锛屽苟瀵圭爺绌跺櫒瀹樺彂鑲插拰鐤剧梾鍙戠敓杩囩▼鍏锋湁閲嶅ぇ鐨勬剰涔夈
  • CHIP-seq鐨勬渚鍒嗘瀽
    绛旓細Quantitative trait nucleotide锛変綅鐐圭粨鍚堟潵鎶戝埗Igf2鍩哄洜鐨勮〃杈俱傚綋Zbed6鍩哄洜娌夐粯鍚庯紝Igf2鍩哄洜鐨勮〃杈鹃噺鍗囬珮銆佺粏鑳炲娈栵紙鑲岀褰㈡垚锛夊姞蹇佸垱浼ゆ剤鍚堝姞蹇備负浜嗙爺绌禯BED6铔嬬櫧浣滅敤闈剁偣锛圛gf2鍩哄洜鍙婂叾涓嬫父鍩哄洜锛夛紝浣滆呴噰鐢ChIP-Seq鎶鏈灏忛紶C2C12鎴愯倢缁嗚優杩涜鍒嗘瀽銆
  • ChIp-Seq,ATAC-seq, DAP-seq
    绛旓細鐢变簬涓嶉渶瑕佺壒寮傛姉浣撱佷互DNA涓庤泲鐧借川鐨勫浐瀹氾紝姣旇捣ChIP-seq闄嶄綆浜嗗疄楠岀殑鎶鏈姹傘傜敱浜庢槸浣撳浜掍綔瀹為獙锛屽湪鍒嗘瀽鏃堕渶瑕佸紩鍏ュ鐓э紝骞朵笖涓庡叾浠栨柟娉曡仈鍚堝垎鏋愩傞噸鐐规槸涓嶉渶瑕佹姉浣擄紝鍦ㄤ綋澶栬〃杈捐浆褰曞洜瀛愩傦紙杩欎笌chip-seq鏈夊緢澶у尯鍒級灏嗕竴涓爣璁扮殑杞綍鍥犲瓙娣诲姞鍒癉NA鏂囧簱涓紝璁╁畠闅忔満缁撳悎DNA锛岄殢鍚庡啀鍒嗙鍑烘墍鏈夐厤瀵笵NA-...
  • ULI-NchIP:鏋佸皯鐢ㄩ噺鐨ChIP-seq鐨勬柊鎶鏈
    绛旓細Brind'Amour J, Liu S, Hudson M, Chen C, Karimi MM, Lorincz MC. An ultra-low-input native ChIP-seq protocol for genome-wide profiling of rare cell populations. Nat Commun. 2015 Jan 21;6:6033. doi: 10.1038/ncomms7033. PMID: 25607992.Matthew Lorincz瀹為獙瀹2015骞村彂琛ㄧ殑閫傜敤浜...
  • 鎴戠殑ChIP-Seq(1): FastQC鎶ュ憡瑙h
    绛旓細鏂版墜锛屽垰鍋氬畬涓涓ChIP-Seq椤圭洰鐨鍒嗘瀽锛屾潵璁板綍涓涓嬶紝浼氬垎濂藉嚑绡囥傞鍏堟槸涓嬫満鏁版嵁fastqc涔嬪悗浼氱敓鎴愪竴涓猦tml鏍煎紡鐨勬姤鍛婏紝鏍规嵁鎶ュ憡鍙互鐪嬪嚭鑷繁鏁版嵁鐨勭壒鐐癸紝渚夸簬涔嬪悗clean鐨勫弬鏁拌缃備互涓嬫槸fastqc锛坴0.11.5锛夋姤鍛婄殑鍐呭璇存槑锛堜互鑷繁鐨勬暟鎹负渚嬶紝缁忓叕鍙哥矖杩囨护鍚庣殑涓嬫満鏁版嵁锛夋湁缃戜笂鎼滅储鍒扮殑涔熸湁鑷繁鐨勪綋浼氾細...
  • chipseq宄板浘鎬庝箞鐪
    绛旓細铔嬬櫧璐ㄤ笌DNA鐨勭粨鍚堟儏鍐点傚湪ChIP-seq宄板浘涓紝y杞翠唬琛–hIP-seq鐨勪俊鍙峰己搴︼紝x杞翠唬琛ㄥ熀鍥犵粍鍧愭爣銆傚熀鍥犵粍鐨勬煇涓綅缃泲鐧借川缁撳悎鐨勬鐜囪秺澶э紝妫娴嬪埌鐨凞NA鐗囨鍫嗗彔灏变細瓒婇珮锛屽湪宄板浘涓紝宄板煎氨浼氳秺楂樸傛病鏈夎泲鐧界粨鍚堬紝灏变細鍑犱箮娌℃湁DNA鐗囨鍫嗗彔锛屽嘲鍊煎氨浼氬緢浣庛傚嘲鍥句腑鐨勫嘲灏辨槸DNA鐗囨鍫嗗彔锛屽彨Peak銆
  • 扩展阅读:www.sony.com.cn ... taichi模块官网 ... gtp人工智能入口 ... chip电子元件术语 ... chip类元器件有哪些 ... cnv-seq检测报告单正常 ... www.hitachi-chem.com.cn ... chip-seq片段化较小 ... chipseq峰图怎么看 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网