二代测序的数据的分析——质量控制

Fastqc
Fastqc website ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) )

质量控制的测序质量检测是通过FastQC软件实现。fastqc可以不设置任何参数运行,这样会直接在当前目录下生成一个质量报告的压缩文件和文件夹,报告是网页格式。也可以设置输出目录和是否解压缩(--noextract),默认设置会解压缩。命令如下:

其中 --noextract 命令是不解压缩输出文件。 -t 参数是指定使用线程数,fastqc似乎并不是并行运算,而是通过线程数同时执行多个程序,比如线程数指定为4,并不是用4个进程去跑一个文件,而是同时跑4个文件,不过4个线程速度提高很大,个人测试感觉10倍速度于2个线程。 -q 为屏蔽进程信息并只输出错误信息, -f 参数为指定输入文件格式(有bam, sam, fastq可选)

fastqc的结果在v0.11.5版下共有12项。

根据结果去接头( adapter )、引物( Primary )尾巴( Poly-A )等。必须要去的是接头。常用的软件有cutadapt、trim_galore等等。一般用cutadapt,很多去接头软件的底层其实也是调用cutadapt。

眼科中心服务器cutadapt 1.9.1版本安装在c0,c10节点上,需要提交到这两个节点才可以运行,否则很多节点用的是1.4.1,老版本的问题是功能有限,尤其是对于双端数据不支持(如-A参数)。cutadapt官网对于Illumina接头去除的说明如下:

因此单端数据只需要用-a参数去掉“ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC ”就可以了。

按照推荐我双端数据(Pair-End)的命令如下:

其中的参数说明:
-a 序列 正向接头序列,单端测序只用这个。
-A 序列 反向接头序列,双端情况下设置。
-q 数字 表示最低质量值,在去接头前先将低于此数值的bases去除。 如果只设置一个数值则从3'末端去除,如果用逗号分割两个数值则先去5'末端后去3'末端 。一般设为30。

-m 数字 表示trim后最短bp低于此数的reads被抛弃,一般设为20。

-M 数字 表示长于此数字的reads被抛弃,默认值不限制。

--max-n=COUNT 抛弃有太多N的reads。COUNT如果设置为整数,就是按N的绝对个数来处理;如果设置为小数(0到1之间),就按每条reads中N的百分比来处理。

-O 数字 表示adapt和序列比对最少overlap的值,高于此值就认为是接头并修剪,默认是3,个人设置至少到5。

-o 目录 Read1的输出路径

-p 目录 Read2的输出路径

根据fastqc的报告,如果是RNA数据尾巴较多的情况,最好再去一次PolyA尾巴,少就不用了。

Trim Galore 合并了FastQC和Cutadapt到一个程序中。它的优势在于它可以根据FastQC分析的个体质量对每个reads进行修剪。同时可以设置程序对剪切后的序列用FastQC生成一个统计信息。对双端序列支持也很好。

选项

示例:



  • 銆愯浆褰曠粍-4銆鏁版嵁璐ㄦ帶
    绛旓細鎰熻阿鍏虫敞锛 oddxix 寰楀埌涓嬫満鏁版嵁鍚庯紝鎴戜滑鍏堣杩涜鏁版嵁璐ㄦ帶锛岀湅涓涓鏁版嵁璐ㄩ噺 鏁版嵁璐ㄩ噺涓昏浠庝袱鏂归潰鍘鍒嗘瀽锛氱⒈鍩哄惈閲忓垎甯冨拰纰卞熀璐ㄩ噺鍒嗗竷 娴嬪簭鐨GC鍚噺搴旇涓庣墿绉嶇殑GC鍚噺鐩稿悓 纰卞熀鍚噺鍒嗗竷寮傚父 娉細鏍峰搧涓烘贩鍚堟牱鍝佹垨鑰呮祴搴忎竴娆℃牱鍝佷笉鑳藉楗卞拰绛夊師鍥犻犳垚鐨勬尝鍔ㄦ槸鍙互蹇借鐨 璇勪环鏍囧噯 閿欒鐜囧拰璐ㄩ噺鍊肩殑瀵瑰簲鍏崇郴 ...
  • 浣跨敤scater鍖呰繘琛屽崟缁嗚優娴嬪簭鍒嗘瀽(浜):鏁版嵁璐ㄩ噺鎺鍒
    绛旓細scater浣跨敤 calculateQCMetrics 鍑芥暟璁$畻QC metrics锛屽畠鍙互瀵圭粏鑳炲拰鍩哄洜杩涜涓绯诲垪鐨勬暟鎹川閲忔帶鍒讹紝鍏剁粨鏋滃垎鍒瓨鍌ㄥ湪colData鍜宺owData涓傞粯璁ゆ儏鍐典笅锛宑alculateQCMetrics鍑芥暟浣跨敤鍘熷鐨刢ount鍊艰绠楄繖浜決C metrics锛屼篃鍙互閫氳繃exprs_values鍙傛暟杩涜淇敼銆傚綋鐒讹紝鎴戜滑涔熷彲浠ヨ缃竴浜涘弬鐓э紙濡侲RCC spike-in锛岀嚎绮掍綋鍩...
  • 濡備綍鍋氬ソ鍒嗘瀽鍓璐ㄩ噺鎺鍒
    绛旓細鍚屾椂锛屼篃鍙互寤虹珛鏁版嵁璐ㄩ噺鍙嶉鏈哄埗锛屽強鏃跺彂鐜板苟澶勭悊鏁版嵁璐ㄩ噺闂銆傜患涓婃墍杩帮紝鍋氬ソ鍒嗘瀽鍓璐ㄩ噺鎺鍒堕渶瑕佹槑纭洰鏍囥佸埗瀹氳鍒掋侀夋嫨鍚堥傜殑鏂规硶鍜屽伐鍏凤紝骞跺缓绔嬬浉搴旂殑璐ㄩ噺鐩戞帶鍜岃瘎浼版満鍒躲傞氳繃杩欎簺鎺柦锛屽彲浠ョ‘淇濇墍鏀堕泦鐨勬暟鎹叿鏈夐珮璐ㄩ噺鐨勪唬琛ㄦс佸噯纭у拰涓鑷存э紝涓哄悗缁鐨勬暟鎹垎鏋宸ヤ綔鎻愪緵鍙潬鐨勫熀纭銆
  • 鏁版嵁璐ㄦ帶杩涜鐨勮繃婊
    绛旓細鍦ㄦ暟鎹川鎺т腑锛岄氳繃娴嬪簭鏁版嵁纰卞熀璐ㄩ噺鍊间笌纰卞熀鍒嗗竷鍊肩殑璇勪及锛屾垜浠彲浠ヤ簡瑙d竴涓娴嬪簭鏁版嵁鐨濂藉潖銆備絾鍦ㄥ疄闄呯殑娴嬪簭涓紝骞堕潪鎵鏈鐨勬暟鎹鍦ㄦ暟鎹川鎺у悗閮芥槸濂芥垨鍧忥紝鐢ㄦ垨涓嶇敤鐨勯潪姝ゅ嵆褰肩殑鍏崇郴銆傝屾槸鏍规嵁鐩稿簲鐨勯渶姹傦紝瀵规祴搴忔暟鎹繘琛 杩囨护 銆備富瑕佹槸寤哄簱杩囩▼涓姞鍏ョ殑鎺ュご銆佸紩鐗┿乮ndex 绛夈傝嫢涓嶈繘琛屽幓闄わ紝鍒娴嬪簭鍒嗘瀽...
  • 璐ㄩ噺鎺鍒剁殑鏂规硶鏈夊摢浜
    绛旓細1銆佺粺璁¤皟鏌ヨ〃娉曪紱鏄埄鐢ㄤ笓闂ㄨ璁$殑缁熻琛ㄥ璐ㄩ噺鏁版嵁杩涜鏀堕泦銆佹暣鐞嗗拰绮楃暐鍒嗘瀽璐ㄩ噺鐘舵佺殑涓绉嶆柟娉曘2銆佸垎灞傛硶锛涙槸灏嗚皟鏌ユ敹闆嗙殑鍘熷鏁版嵁锛屾牴鎹笉鍚岀殑鐩殑鍜岃姹傦紝鎸夋煇涓鎬ц川杩涜鍒嗙粍銆佹暣鐞鐨勫垎鏋鏂规硶銆3銆佹帓鍒楀浘娉曪紱鏄埄鐢ㄦ帓鍒楀浘瀵绘壘褰卞搷璐ㄩ噺涓绘鍥犵礌鐨勪竴绉嶆湁鏁堟柟娉曘4銆佸洜鏋滃垎鏋愬浘娉曪紱鏄埄鐢ㄥ洜鏋滃垎鏋愬浘鏉...
  • 璐ㄩ噺鎺鍒剁殑鏂规硶鏈夊摢浜
    绛旓細1銆佺粺璁¤皟鏌ヨ〃娉曪紱鏄埄鐢ㄤ笓闂ㄨ璁$殑缁熻琛ㄥ璐ㄩ噺鏁版嵁杩涜鏀堕泦銆佹暣鐞嗗拰绮楃暐鍒嗘瀽璐ㄩ噺鐘舵佺殑涓绉嶆柟娉曘2銆佸垎灞傛硶锛涙槸灏嗚皟鏌ユ敹闆嗙殑鍘熷鏁版嵁锛屾牴鎹笉鍚岀殑鐩殑鍜岃姹傦紝鎸夋煇涓鎬ц川杩涜鍒嗙粍銆佹暣鐞鐨勫垎鏋鏂规硶銆3銆佹帓鍒楀浘娉曪紱鏄埄鐢ㄦ帓鍒楀浘瀵绘壘褰卞搷璐ㄩ噺涓绘鍥犵礌鐨勪竴绉嶆湁鏁堟柟娉曘4銆佸洜鏋滃垎鏋愬浘娉曪紱鏄埄鐢ㄥ洜鏋滃垎鏋愬浘鏉...
  • 鏁版嵁璐ㄩ噺鎺鍒舵帾鏂界殑閲嶈鎬ф槸浠涔?
    绛旓細3. 瀹㈡埛婊℃剰搴︼細鏁版嵁璐ㄩ噺瀵瑰鎴锋弧鎰忓害鍜岀敤鎴蜂綋楠屽叿鏈夐噸瑕佸奖鍝嶃傛暟鎹川閲忛棶棰樺彲鑳藉鑷村鎴蜂俊鎭涪澶便佽鍗曢敊璇垨鏈嶅姟寤惰繜绛夋儏鍐碉紝褰卞搷瀹㈡埛鐨勬弧鎰忓害鍜屽繝璇氬害銆傞氳繃纭繚鏁版嵁鐨鍑嗙‘鎬у拰瀹屾暣鎬э紝鍙互鎻愰珮瀹㈡埛鐨勪娇鐢ㄤ綋楠岋紝澧炲己瀹㈡埛鍏崇郴鍜屽彛纰戙4. 鏁版嵁鍒嗘瀽鍜屾礊瀵熷姏锛氭暟鎹川閲忓鏁版嵁鍒嗘瀽鍜屾礊瀵熷姏鍏锋湁閲嶈褰卞搷銆備綆璐ㄩ噺鐨...
  • 瀹為獙瀹ょ殑鍐呴儴璐ㄩ噺鎺鍒跺拰澶栭儴璐ㄩ噺鎺у埗
    绛旓細鍐呴儴璐ㄩ噺鎺鍒跺鍚屽疄楠屽鐨勫唴蹇冭嚜鐪侊紝瀹冪簿缁嗗湴鍏虫敞姣忎釜鐜妭锛屼互鎻愬崌鏁堣兘銆傞鍏堬紝璐ㄩ噺鎺у埗鍥炬硶锛岀姽濡傚疄楠屽鐨勭溂鐫涳紝閫氳繃鐩戞帶姣忎竴姝ユ娴嬭繃绋嬶紝涓鏃︽暟鎹偣鍋忕瀹夊叏鐨勬帶鍒剁嚎锛屽氨濡傝閽熻埇璀︾ず鎴戜滑闇瑕佸強鏃惰皟鏁达紝纭繚鏁版嵁鐨绋冲畾鎬э紙璐ㄩ噺鎺у埗鍥炬硶锛夈傜┖鐧鍒嗘瀽锛屽氨鍍忓疄楠屽鐨勬竻娲佸墏锛屾竻闄ゅ閮ㄥ共鎵帮紝鐗瑰埆鏄浣庢祿搴︽牱...
  • 瀹為獙瀹璐ㄩ噺鎺鍒跺寘鎷摢浜涘唴瀹?
    绛旓細瀹為獙瀹ゆ搷浣滆绋嬪拰鏍囧噯鎿嶄綔绋嬪簭锛氬埗瀹氬拰閬靛畧瀹為獙瀹ゆ搷浣滆绋嬪拰鏍囧噯鎿嶄綔绋嬪簭锛岀‘淇濆疄楠屽宸ヤ綔鐨勪竴鑷存у拰瑙勮寖鎬с傝繖鍖呮嫭鏍峰搧澶勭悊銆佷华鍣ㄦ搷浣溿佹暟鎹褰曞拰缁撴灉鎶ュ憡绛夋柟闈㈢殑瑙勫畾銆璐ㄩ噺鎺鍒鏁版嵁鍒嗘瀽锛氬瀹為獙瀹鍒嗘瀽鏁版嵁杩涜缁熻鍜岃川閲忔帶鍒舵暟鎹垎鏋愶紝妫鏌ュ疄楠岀粨鏋滅殑鍙俊搴﹀拰鏁版嵁鐨涓鑷存с傝繖鍖呮嫭璇嗗埆鍜屾帓闄ゅ紓甯稿笺佽绠楁祴...
  • qiime杞欢鏄共浠涔堢殑
    绛旓細Qiime杞欢鏄敤浜庡井鐢熺墿缁鏁版嵁鍒嗘瀽鐨宸ュ叿銆俀iime杞欢鏄竴涓箍娉涘簲鐢ㄤ簬寰敓鐗╃粍鐮旂┒鐨勫伐鍏凤紝涓昏鍔熻兘鏄楂橀氶噺娴嬪簭鏁版嵁杩涜鍒嗘瀽锛屽府鍔╃爺绌惰呮繁鍏ヤ簡瑙f牱鏈腑鐨勫井鐢熺墿缇よ惤缁撴瀯鍜屽鏍锋с傚叿浣撴潵璇达紝Qiime杞欢鍙互杩涜浠ヤ笅鎿嶄綔锛1. 鏁版嵁璐ㄩ噺鎺鍒跺拰澶勭悊锛歈iime鍙互瀵瑰師濮嬫祴搴忔暟鎹繘琛岄澶勭悊锛屽寘鎷幓闄や綆璐ㄩ噺鐨勫簭鍒椼...
  • 扩展阅读:国家认可的第三方检测机构 ... 全基因测序多少钱一次 ... 数据分析三大软件 ... 全基因组测序多少钱 ... 质量数据分析模板 ... 脑脊液二代测序有必要做吗 ... 数据分析柱状图 ... 二代测序能检测哪些病 ... 数据分析的四种类型 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网