ATAC-seq专题---生信分析流程

ATAC-seq信息分析流程主要分为以下几个部分:数据质控、序列比对、峰检测、motif分析、峰注释、富集分析,下面将对各部分内容进行展开讲解。

下机数据经过过滤去除接头含量过高或低质量的reads,得到clean reads用于后续分析。常见的trim软件有Trimmomatic、Skewer、fastp等。fastp是一款比较新的软件,使用时可以用--adapter_sequence/--adapter_sequence_r2参数传入接头序列,也可以不填这两个参数,软件会自动识别接头并进行剪切。如:

fastp \

--in1 A1_1.fq.gz \ # read1原始fq文件

--out1 A1_clean_1.fq.gz \ # read1过滤后输出的fq文件

--in2 A1_2.fq.gz  \ # read2原始fq文件

--out2 A1_clean_2.fq.gz \ # read2过滤后输出的fq文件

--cut_tail  \ #从3’端向5’端滑窗,如果窗口内碱基的平均质量值小于设定阈值,则剪切

--cut_tail_window_size=1 \ #窗口大小

--cut_tail_mean_quality=30 \ #cut_tail参数对应的平均质量阈值

--average_qual=30 \ #如果一条read的碱基平均质量值小于该值即会被舍弃

--length_required=20  \ #经过剪切后的reads长度如果小于该值会被舍弃

fastp软件的详细使用方法可参考:https://github.com/OpenGene/fastp。fastp软件对于trim结果会生成网页版的报告,可参考官网示例http://opengene.org/fastp/fastp.html和http://opengene.org/fastp/fastp.json,也可以用FastQC软件对trim前后的数据质量进行评估,FastQC软件会对单端的数据给出结果,如果是PE测序需要分别运行两次来评估read1和read2的数据质量。

如:

fastqc A1_1.fq.gz

fastqc A1_2.fq.gz

FastQC会对reads从碱基质量、接头含量、N含量、高重复序列等多个方面对reads质量进行评估,生成详细的网页版报告,可参考官网示例:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html

经过trim得到的reads可以使用BWA、bowtie2等软件进行比对。首先需要确定参考基因组fa文件,对fa文件建立索引。不同的软件有各自建立索引的命令,BWA软件可以参考如下方式建立索引:

bwa index genome.fa

建立好索引后即可开始比对,ATAC-seq推荐使用mem算法,输出文件经samtools排序输出bam:

bwa mem genome.fa  A1_clean_1.fq.gz A1_clean_2.fq.gz

| samtools sort -O bam -T A1 > A1.bam

值得注意的是,在实验过程中质体并不能完全去除,因此会有部分reads比对到质体序列上,需要去除比对到质体上的序列,去除质体序列可以通过samtools提取,具体方法如下:首先将不含质体的染色体名称写到一个chrlist文件中,一条染色体的名称写成一行,然后执行如下命令即可得到去除质体的bam

samtools view -b A1.bam $chrlist > A1.del_MT_PT.bam

用于后续分析的reads需要时唯一比对且去重复的,bwa比对结果可以通过MAPQ值来提取唯一比对reads,可以用picard、sambamba等软件去除dup,最终得到唯一比对且去重复的bam文件。

比对后得到的bam文件可以转化为bigWig(bw)格式,通过可视化软件进行展示。deeptools软件可以实现bw格式转化和可视化展示。首先需要在linux环境中安装deeptools软件,可以用以下命令实现bam向bw格式的转换:

bamCoverage -b A1.bam -o A1.bw

此外,可以使用deeptools软件展示reads在特定区域的分布,如:

computeMatrix reference-point   \ # reference-pioint表示计算一个参照点附近的reads分布,与之相对的是scale-regions,计算一个区域附近的reads分布

--referencePoint TSS   \#以输入的bed文件的起始位置作为参照点

-S  A1.bw \ #可以是一个或多个bw文件

-R  gene.bed \ #基因组位置文件

-b 3000   \ #计算边界为参考点上游3000bp

-a 3000   \ #计算边界为参考点下游3000bp,与-b合起来就是绘制参考点上下游3000bp以内的reads分布

-o  A1.matrix.mat.gz \ #输出作图数据名称

#图形绘制

plotHeatmap \

-m  new_A1.matrix.mat.gz \ #上一步生成的作图数据

-out A1.pdf \ # 输出图片名称

绘图结果展示:

MACS2能够检测DNA片断的富集区域,是ATAC-seq数据call peak的主流软件。峰检出的原理如下:首先将所有的reads都向3'方向延伸插入片段长度,然后将基因组进行滑窗,计算该窗口的dynamic λ,λ的计算公式为:λlocal = λBG(λBG是指背景区域上的reads数目),然后利用泊松分布模型的公式计算该窗口的显著性P值,最后对每一个窗口的显著性P值进行FDR校正。默认校正后的P值(即qvalue)小于或者等于0.05的区域为peak区域。需要现在linux环境中安装macs2软件,然后执行以下命令:

macs2 callpeak \

-t A1.uni.dedup.bam \ #bam文件

-n A1 \ # 输出文件前缀名

--shift -100 \ #extsize的一半乘以-1

--extsize 200 \ #一般是核小体大小

--call-summits #检测峰顶信息

注:以上参数参考文献(Jie Wang,et.al.2018.“ATAC-Seq analysis reveals a widespread decrease of chromatin accessibility in age-related macular degeneration.”Nature Communications)

ATAC分析得到的peak是染色质上的开放区域,这些染色质开放区域常常预示着转录因子的结合,因此对peak区域进行motif分析很有意义。常见的motif分析软件有homer和MEME。以homer软件为例,首先在linux环境中安装homer,然后用以下命令进行motif分析:

findMotifsGenome.pl \

A1_peaks.bed \ #用于进行motif分析的bed文件

genome.fa  \ #参考基因组fa文件

A1  \ #输出文件前缀

-size  given \ #使用给定的bed区域位置进行分析,如果填-size -100,50则是用给定bed中间位置的上游100bp到下游50bp的区域进行分析

homer分析motif的原理及结果参见:http://homer.ucsd.edu/homer/motif/index.html

根据motif与已知转录因子的富集情况可以绘制气泡图,从而可以看到样本与已知转录因子的富集显著性。

差异peak代表着比较组合染色质开放性有差异的位点,ChIP-seq和ATAC-seq都可以用DiffBind进行差异分析。DiffBind通过可以通过bam文件和peak的bed文件计算出peak区域标准化的readcount,可以选择edgeR、DESeq2等模型进行差异分析。

在科研分析中我们往往需要将peak区域与基因联系起来,也就是通过对peak进行注释找到peak相关基因。常见的peak注释软件有ChIPseeker、homer、PeakAnnotator等。以ChIPseeker为例,需要在R中安装ChIPseeker包和GenomicFeatures包,然后就可以进行分析了。

library(ChIPseeker)

library(GenomicFeatures)

txdb<- makeTxDbFromGFF(‘gene.gtf’)#生成txdb对象,如果研究物种没有已知的TxDb,可以用GenomicFeatures中的函数生成

peakfile <-readPeakFile(‘A1_peaks.narrowPeak’)#导入需要注释的peak文件

peakAnno <- annotatePeak(peakfile,tssRegion=c(-2000, 2000), TxDb=txdb)

# 用peak文件和txdb进行peak注释,这里可以通过tssRegion定义TSS区域的区间

对于peak注释的结果,也可以进行可视化展示,如:

p <- plotAnnoPie(peakAnno)

通过注释得到的peak相关基因可以使用goseq、topGO等R包进行GO富集分析,用kobas进行kegg富集分析,也可以使用DAVID在线工具来完成富集分析。可以通过挑选感兴趣的GO term或pathway进一步筛选候选基因。

  • ATAC-seq涓撻---鐢熶俊鍒嗘瀽娴佺▼
    绛旓細MACS2鑳藉妫娴婦NA鐗囨柇鐨勫瘜闆嗗尯鍩,鏄ATAC-seq鏁版嵁call peak鐨勪富娴佽蒋浠躲傚嘲妫鍑虹殑鍘熺悊濡備笅:棣栧厛灏嗘墍鏈夌殑reads閮藉悜3'鏂瑰悜寤朵几鎻掑叆鐗囨闀垮害,鐒跺悗灏嗗熀鍥犵粍杩涜婊戠獥,璁$畻璇ョ獥鍙g殑dynamic 位,位鐨勮绠楀叕寮忎负:位local = 位BG(位BG鏄寚鑳屾櫙鍖哄煙涓婄殑reads鏁扮洰),鐒跺悗鍒╃敤娉婃澗鍒嗗竷妯″瀷鐨勫叕寮忚绠楄绐楀彛鐨勬樉钁楁鍊,鏈鍚庡姣忎竴...
  • 銆愯崘钘忋戠敓鐗╀俊鎭涔犲垎鏋愬叆闂ㄩ渶瑕佺偣浜殑鎶鑳芥爲
    绛旓細鐗瑰埆鍊煎緱涓鎻愮殑鏄紝瀹冨湪B绔欎笂鍒嗕韩浜100灏忔椂鐨勫厤璐鐢熶俊宸ョ▼甯堟暀瀛﹁棰戯紝娑电洊浜哤ES, RNA-seq, ChIP-seq, ATAC-seq, 鍗曠粏鑳炪佺敳鍩哄寲鑺墖銆乴ncRNA鍜宮iRNA绛夊绉嶇粍瀛︽暟鎹垎鏋愶紝杩欎簺閮芥槸鐢盝immy鏇惧仴鏄庡厛鐢熸棤绉佽础鐚殑瀹濊吹璧勬簮銆傜敓淇℃妧鑳芥爲瑕嗙洊浜嗙敓淇″熀纭銆佸叆闂ㄥ拰杩涢樁鐨勫悇涓柟闈紝鍚屾椂鏁寸悊浜嗙浉鍏宠蒋浠跺畨瑁呫佹湇鍔″櫒...
  • 銆愯崘钘忋戠敓鐗╀俊鎭涔犲垎鏋愬叆闂ㄩ渶瑕佺偣浜殑鎶鑳芥爲
    绛旓細瀹炴垬婕旂粌瀹炴垬绡囦腑锛屼粠NGS鏁版嵁鍒嗘瀽瀹炴垬锛屽埌DNA鐢插熀鍖栬姱鐗囧垎鏋愶紝鍐嶅埌ATAC-seq鍜孋hip-seq娴嬪簭鏁版嵁鍒嗘瀽锛屾瘡涓姝ラ兘缁嗚嚧鍏ュ井銆傚崟缁嗚優杞綍缁勫拰鍏ㄥ鏄惧瓙娴嬪簭鏁版嵁鍒嗘瀽鏇存槸鍏ㄩ潰锛岃浣犲湪瀹為檯椤圭洰涓ぇ灞曡韩鎵嬨傝祫婧愬钩鍙鐢熶俊鎶鑳芥爲娲昏穬浜庡井淇°丅绔欏拰璁哄潧锛岄氳繃銆愮敓淇¤彍楦熷洟銆戝拰銆愮敓淇℃妧鑳芥爲璁哄潧銆戯紝浣犲彲浠ラ殢鏃惰幏鍙栨渶鏂扮殑...
  • 琛ㄨ缁勫涓殑motif鍒嗘瀽鍒板簳鍦ㄧ爺绌朵粈涔?
    绛旓細鍥涖丮EME-ChIP MEME涓湁涓娆炬暣鍚堢粍浠禡EME-ChIP锛屽畠鏁村悎浜唌otif鎼滅储銆佸瘜闆嗐佹祻瑙堜互鍙婃瘮杈冨伐鍏风粍浠讹紝杈撳叆涓鎵规暟鎹彲瀹屾垚涓绯诲垪motif鍒嗘瀽鎿嶄綔锛岃繖娆剧粍浠跺箍娉涚敤浜ATAC-seq銆丏AP-seq銆丆hIP-seq绛夋祴搴忔暟鎹甿otif鎸栨帢涓侻EME-ChIP涓昏鍖呭惈缁勪欢锛1锛塎EME\DREME\STREME锛歮otif鎼滅储宸ュ叿锛孧EME涓昏鐢ㄤ簬杈冮暱motif锛8-15bp...
  • 扩展阅读:www.sony.com.cn ... 国产液相色谱 ... mac蜜桃奶茶314 ... 日本资生堂色谱柱 ... 国产377vc精华真能祛斑吗 ... ymc pack ods a ... aoc e2243fw ... phenomenex色谱柱 ... cnv-seq检测报告单正常 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网