【批次效应】combat

现在其实已经有很多处理批次效应的方法,有基本基于中心值和方差调整的,也有的利用神经网络,或者机器学习(例如cell-blast的生成对抗网络)的方法的。

下面这个研究比较了6种去除批次效应的方法,其中包括ComBat方法(parametric prior method,ComBat_p和non-parametric method,ComBat_n)、代理变量法(Surrogate variable analysis,SVA)、基于比值的方法(Geometric ratio-based method,Ratio_G)、平均中心方法(Mean-centering,PAMR)和距离加权判别(Distance-weighted discrimination,DWD)方法等。其中像combat和limma是自己以前在RNA-seq处理时候就接触和用过的。

也从5个参数(KBET、LISI、ASW、ARI和DEG),利用不同的类型的数据集对这些batch effect处理的方法进行了对比。

最后对于不同的数据集,给出了比较好的适应方法的建议。

我们最近有空也会对大多数工具进行一一的测试,看下性能和效应。

今天再学习一下combat。

早期的combat是为了处理microarray的batch effect的。

模型的假设是基于位置和尺度(Location and scale,L/S)的调整。L/S调整可以定义为一系列广泛的调整,其中为数据在批次内的位置(均值)和/或规模(方差)。

假设了一个模型,然后调整批次以满足假设模型的规范。因此,L/S批次调整假设批次效应可以通过标准化批次之间的均值和方差来建模。

这些调整可以从简单的基因范围的均值和方差标准化,到复杂的基因间线性或非线性调整。

其中:

Yijg表示来自批次i的样品j的基因g的表达值。

其中αg是基因g的平均表达值,X是样本条件的设计矩阵,βg是对应于X的回归系数向量。误差项εijg服从期望值为0和方差为σg的正态分布N(0,σg),γig和δig表示批次i中基因g加法和乘法的批次效应。

算法总共分为三步:

后面的comBat-seq主要为了更好的处理RNA-seq数据,因为作者认为对于RNA-seq数据也假设为高斯分布,可能不适用于RNA-seq的表达值。所以为了更好的处理RNA-seq,作者把模型拓展为negative binomial distribution(负二项式分布),然后基于负二项回归去处理模型。

=== 安装测试 ====

install.packages("sva")

library(sva)

library(bladderbatch)

使用内置的数据进行测试:

data(bladderdata)

dat <- bladderEset[1:50,]

pheno = pData(dat)

edata = exprs(dat)

batch = pheno$batch

//看下cluster的基本情况

dist_mat <- dist(t(edata))

clustering <- hclust(dist_mat, method ="complete")

plot(clustering, labels = pheno$batch)

plot(clustering, labels = pheno$cancer)

mod = model.matrix(~as.factor(cancer),data=pheno)

combat_edata <- ComBat(dat = edata,batch = pheno$batch, mod = mod)

:校正批次效应,model可以有也可以没有,如果有,也就是告诉combat,有些分组本来就有差别,不要给我矫枉过正!

dist_mat_combat <- dist(t(combat_edata))

clustering_combat <-hclust(dist_mat_combat, method = "complete")

plot(clustering_combat, labels = pheno$batch)

plot(clustering_combat, labels = pheno$cancer)



  • 銆愭壒娆℃晥搴斻慶ombat
    绛旓細涓嬮潰杩欎釜鐮旂┒姣旇緝浜6绉嶅幓闄鎵规鏁堝簲鐨勬柟娉曪紝鍏朵腑鍖呮嫭ComBat鏂规硶锛坧arametric prior method锛孋omBat_p鍜宯on-parametric method锛孋omBat_n锛夈佷唬鐞嗗彉閲忔硶锛圫urrogate variable analysis锛孲VA锛夈佸熀浜庢瘮鍊肩殑鏂规硶锛圙eometric ratio-based method锛孯atio_G锛夈佸钩鍧囦腑蹇冩柟娉曪紙Mean-centering锛孭AMR锛夊拰璺濈鍔犳潈鍒ゅ埆锛圖istanc...
  • 鍥版壈鐨刡atch effect
    绛旓細涓椤圭爺绌舵瘮杈冧簡6绉嶅幓闄鎵规鏁堝簲鐨勬柟娉,鍏朵腑鍖呮嫭ComBat鏂规硶(parametric prior method,ComBat_p鍜宯on-parametric method,ComBat_n)銆佷唬鐞嗗彉閲忔硶(Surrogate variable analysis,SVA)銆佸熀浜庢瘮鍊肩殑鏂规硶(Geometric ratio-based method,Ratio_G)銆佸钩鍧囦腑蹇冩柟娉(Mean-centering,PAMR)鍜岃窛绂诲姞鏉冨垽鍒(Distance-weighted discrimination,DWD...
  • 銆愬崟缁嗚優銆戝崟缁嗚優鏁版嵁鐨鎵规鏁堝簲
    绛旓細鎴戜滑鏇村笇鏈涘幓闄ょ殑鎵规鏁堝簲锛屽叾瀹炴槸涓嶅悓瀹為獙瀹わ紝涓嶅悓寤哄簱鎵嬫锛屼笉鍚屾祴搴忓钩鍙版墍寮曡捣鐨勬壒娆℃晥搴斻傚綋鎴戜滑甯屾湜閫氳繃鍚堝苟鍚屼竴缁勭粐鏁版嵁鎸栨帢鍑烘洿鏈夋剰涔夌殑淇℃伅鏃讹紝灏变笉鍙伩鍏嶇殑浼氬彂鐜帮紝鏄庢槑鏄悓涓粍缁囩殑鏁版嵁锛岃〃杈鹃噺灏辨槸瀛樺湪鏄庢樉鐨勫樊寮(PCA, t-SNE闄嶇淮鍙鍖)銆 涔嬪墠鏈変汉鐢╞ulk RNA-seq鐨勬柟娉(limma, ComB...
  • 鍏充簬鎵规鏁堝簲鐨勮嫢骞查棶棰
    绛旓細鍦╞ulk-seq閲岄潰锛屾垜浠線寰寰堥毦鍖哄垎鏍锋湰闂寸殑宸紓鏄敱浜庣敓鐗╁澶勭悊鎵寮曡捣鐨勮繕鏄鎵规鏁堝簲鎵寮曡捣鐨勶紝 鎵浠ラ壌瀹氭壒娆℃晥搴旀渶濂戒粠鐩稿悓澶勭悊鎴栬呮槸鐩稿悓缁勭粐鐨勬牱鍝佸叆鎵嬶紝鎵浠ontrol灏や负閲嶈 濡傛灉鏄疪NA-seq鐨勬暟鎹紝鎴戜滑鍙互鍒╃敤PCA鑱氱被鏉ユ娴嬶紙琛ㄨ揪閲忛渶瑕佹爣鍑嗗寲锛夛細 濡傛灉鏄病鏈夋壒娆℃晥搴旂殑鏁版嵁锛岄偅涔堜粬浠殑鏍峰搧鑱氱被搴旇...
  • R璇█涓湁鍝簺鍖呭彲浠ュ鐞鎵规鏁堝簲
    绛旓細鍓嶈█锛歴va鍖呭彲浠ュ幓闄ら珮閫氶噺瀹為獙涓殑鎵规鏁堝簲鍜屽叾瀹冧竴浜涙棤鍏冲彉閲忓甫鏉ョ殑褰卞搷銆傚垎涓轰袱涓楠わ細1.閴村畾鍜岃瘎浼板疄楠屼腑娼滃湪鐨勫奖鍝嶅彉閲忥紱2.鐩存帴搴旂敤ComBat鍘婚櫎宸茬煡鐨勬壒娆℃晥搴旓紱鍦╯va鍖呬腑锛屽亣瀹氭湁涓ょ鍙橀噺闇瑕佽冭檻锛1.鍏磋叮鍙橀噺锛堝鐧岀棁鍜屾甯稿鐓э級銆2.璋冩暣鍙橀噺锛堝锛氱梾浜虹殑鎬у埆銆佺梾浜虹殑骞撮緞绛夛級銆傚彟澶栨湁涓ょ妯″瀷...
  • 鍗曠粏鑳濺NA-seq鍘婚櫎鎵规鏁堝簲
    绛旓細璇ョ畻娉曠殑姝ラ涓猴細鎴戜滑瀵筂NN瀵圭殑浣跨敤娑夊強涓変釜鍋囪锛 (i). 涓や釜鎵规涓嚦灏戝瓨鍦ㄤ竴涓粏鑳炵兢鍦ㄤ袱涓壒娆′腑鏄悓涓缁嗚優缇 (ii). 鎵规鏁堝簲鍑犱箮涓庣敓鐗╁瀛愮┖闂存浜 (iii). 鎵规鏁堝簲鍙樺寲涓烘瘮涓嶅悓缁嗚優绫诲瀷涔嬮棿鐨勭敓鐗╂晥搴斿樊寮傝灏忓緱澶 浣滆呮瘮杈冧簡涓嶅幓闄ゆ壒娆℃晥搴旂殑鏁版嵁锛屼互鍙婂埄鐢∕NN锛宭imma鍜ComBat绛...
  • 鍗曠粏鑳炰氦鍝嶄箰10-鏁版嵁闆嗘暣鍚堝悗鐨鎵规鐭
    绛旓細bulk mRNA杞綍缁勪腑甯哥敤鐨勭煫姝鎵规鏁堝簲鏂规硶灏辨槸绾挎у洖褰,瀵规瘡涓熀鍥犺〃杈鹃噺鎷熷悎涓涓嚎鎬фā鍨嬨備緥濡俵imma鐨 removeBatchEffect() (Ritchie et al. 2015 ) 銆乻va鐨 comBat() (Leek et al. 2012 )銆傚鏋滆浣跨敤杩欑被鏂规硶,灏遍渶瑕佸亣璁:鎵规闂寸殑缁嗚優缁勬垚鐩稿悓銆傚彟澶栫殑涓涓亣璁炬槸:鎵规鏁堝簲鐨勭疮绉殑,瀵逛簬浠讳綍缁欏畾鐨勫熀鍥,鍦...
  • 鍒氬叆闂ㄦ椂鑰佸笀闈炶鍚堝苟dataset鏃禸atch effect鍥版壈璁镐箙
    绛旓細涓椤圭爺绌舵瘮杈冧簡6绉嶅幓闄鎵规鏁堝簲鐨勬柟娉,鍏朵腑鍖呮嫭ComBat鏂规硶(parametric prior method,ComBat_p鍜宯on-parametric method,ComBat_n)銆佷唬鐞嗗彉閲忔硶(Surrogate variable analysis,SVA)銆佸熀浜庢瘮鍊肩殑鏂规硶(Geometric ratio-based method,Ratio_G)銆佸钩鍧囦腑蹇冩柟娉(Mean-centering,PAMR)鍜岃窛绂诲姞鏉冨垽鍒(Distance-weighted discrimination,DWD...
  • 本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网