2022-06-14

15分钟掌握12个极简统计学分析方法- 玩好一二三四五就能上山打老虎

程晓华

2022-6-12

我的新书《全面库存管理数学分析》上市后,很多读者反馈说“看不懂”。这件事一直搞得我很郁闷,但我也很理解,其实很多人,也包括我在内,上大学的时候的3门“高等数学”(高等数学、线性代数、概率与数理统计,一般工科生的必修课,在这里,包括在我的书里统称“高等数学”)可能都没有学好,光去应付考试了,考完了也就完了,根本谈不上应用的问题,尤其是工作时间一长,除了会算个平均值但也懒得算之外,其他的都还给老师了。

但是,从事供应链管理工作,尤其是做最核心的供应链计划管理,必须要跟数据打交道,要不断地分析数据,挖掘并提炼其背后可能存在的有价值的信号,必要的时候,还可能还需要我们自己用Excel、R语言等工具做一些简单的统计预测之类的工作,这就不可避免地就要用到一些所谓的“高等数学”的知识,尽管很简单,但是,你必须要熟练掌握,达到熟能生巧的程度。

如果说《全面库存管理数学分析》让你感到头疼的话,我建议你先耐着性子,结合Excel,花个十几分钟的时间,把我这篇文章看完,如果你能产生一些兴趣,你就可以继续去读我那本书,学到更多的实用数据分析工具和方法论,但如果你连这个都没有兴趣,甚至是连这个东西也搞不懂,那书不读也罢。

我们小时候都知道的一首儿歌,叫“一二三四五,上山打老虎”,我们这里就用y=(1,2,3,4,5)这组数来举例子,我相信,你如果真正能够搞懂了这个一二三四五,你就真的敢上山打老虎(玩供应链数据分析工作)了!

我们假设这个y=(1,2,3,4,5)是某个公司过去1~5月份(即x =(1,2,3,4,5))的出货量,这里的x代表时间、期间,y代表期间出货量。

我在这里一共列了12个小问题,代表12个数学公式及数据分析方法论:

1. 过去5个月的出货(算术)平均值(average / mean)

这个问题很简单,估计99.999%的人都会算,答案是(1+2+3+4+5)/5=3,对应的Excel函数公式是average( )。

但大家不要小看这个简单的算术平均值(简称均值)计算,这是你对客户需求做到心中有“数”的第一步,这也是我的书第一章反复强调的内容 – 平均值很重要。

按照我个人在供应链管理领域管人、管事的经验来看,如果你能不看电脑、手机,随口就能说出你所负责的某个产品、SKU或者型号的每周的大概的平均需求,你就基本上是做到了心中有“数”。

你可以马上用这个“均值”测测你周围的人,结果可能会让你会很失望!

2. 截尾(0.2)平均值(trimmed mean)

知道这个所谓的截尾平均值的人会有多少呢?我心里没太有个数,因为,如果不是学习R语言,我以前也不知道有这么个东西,所以,我就相信很多人也不知道(我这是在做“极大似然估计(Maximum Likelihood Estimation, MLE)”,《全面库存管理数学分析》第四章的内容),尽管很多人都听说过它的应用,类似“去掉一个最高分,去掉一个最低分,大S的得分是 ……”。

这个定义在供应链管理中也是很有用的,譬如在评估客户历史需求的时候,我们可能人为地去掉那些看似不正常的极大值、极小值,至于比例,你自己决定,Excel公式是 trimmean( ),其中trim本身有修剪的意思,mean其实跟average一样,都是平均值的意思,至于为什么在Excel里面它不是用trimaverage( )来做这个表达式,我们就不得而知了。

我们这个例子y=(1,2,3,4,5),数据量很小,数据本身也很整齐,无论是trim=0.2还是0.1, 0.3, 0.4,结果都是3,但如果你把那个5换成6,再试一下这四个比例,它们的结果就不一样了。如果你感兴趣的话,可以模拟更多的数据看看这个公式到底是表达了什么意思。

3. 中位值(Median)

顾名思义,所谓的中位值就是处于序列中间位置的那个值,在我们这个例子中,一共有5个数,3就是那个中位值,因为它前面两个哥哥,后面有两个妹妹,它是老三嘛!

中位值的Excel公式是median()。

我的理解,这个中位值还有保持“中立”的意思,它不管哥哥妹妹们怎么胡闹,它还是它,永远保持不变。它不像那个算术平均值average,属于墙头草性质,哥哥妹妹们一闹腾,它也跟着折腾,所以它才有个外号叫“被平均”。譬如说,你把这个12345改成12346,中位值还是3,但平均值就从3变成了3.2了。所以,很多时候,我们宁肯相信那个中位值,因为这个平均值不太靠谱,据说还害死过人呢! 我也是听说的:一个大个子的统计学家在一条平均水深不到1米的河里被淹死了

比较理想的情况是这个中位值和平均值是一样的,或者差不多大小,这样的数据结构分布一般是比较好,甚至可能就是传说中的正态分布。

4. 四分位差(Interquartile Range, IQR)

在分析一组数据、一个时间序列的时候,我们通常可以把数据平均分成4段,这样每段数据占总数据个数的25%,估计这个“四分”就是这个意思,而“四分”之后,自然就是“五裂”,也就是4段5个点,而这5个点我们可以分别命名为Q 0 , Q 1 , Q 2 , Q 3 , Q 4 ,Q 0 最小(min),Q 4 最大(max),其它几个分别处于25%,50%,75%的位置,如此以来,那个Q 2 就是老三,但奇怪的是,这里的Q 2 是指平均值(average),不是指那个中位值,我猜可能是统计学家们搞错了:其他几个兄弟姐妹谈的都是“位置”上的数嘛!干嘛这个Q 2 就非得是个平均值呢?

所谓四分位差(Interquartile Range,IQR)就是IQR=Q 3 – Q 1 ,在我们这个12345的例子里,IQR= Q 3 - Q 1 = 4 -2 = 2。

在Excel里面有一种图形叫箱型图(boxplot),其原理就是这个IQR。只是这个箱子的中间是中位值,而不是那个Q 2 (平均值),这跟我理解的是一个意思,Q 2 就应该该是个中位值嘛!但很讨厌的是,这个箱子的两边并不严格等于Q 1 ,Q 4 ,箱子上下还有两条边界线,本来它们就应该是我们下面提到的最小、最大异常值,但它实际上却是Q 0 ,Q 4 ,这也是我非常不理解的地方 – 这样的话,这个箱式图还有多大的意义呢?我理想中的箱式图应该是这样的:箱体中间是Q 2 或中位值,上下盖则是Q 1 ,Q 3 ,以此来显示数据的集中范围,或者是表示数据“应该的分布”范围;上下盖之外伸出的两条天线则应该分别是最大、最小异常值,以此圈定来“正常值范围”,天线之外的则是异常值。我之所以这么认为是因为从供应链管理角度,最大值(max)、最小值(min)是没所谓的,它们本身并不能代表是正常还是异常,我们更关心的是所谓的异常,因为供应链管理有所谓“非正常需求(Abnormal Demand)”这一说。

下面我们就来谈谈这个问题。

5. 异常值(Outlier, 最小异常值、最大异常值)

所谓异常就是不正常,而正常与不正常是相对而言的,既然是相对而言,那就得有个相对的尺度,这个尺度就是最大异常值及最小异常值,范围内的叫“正常值”,范围之外的则是异常值。

这个范围定义为: Q2±1.5IQR。

针对我们的例子y =(1,2,3,4,5),最大异常值就是Q2+1.5IQR=3+1.5×2=6,最小异常值就是Q2 - 1.5IQR=3 - 1.5×2=0,也就是说y里面没有异常值。但如果把那个5换成6,则6必是“异常”,感兴趣的读者可以用Excel套一下那个公式试试看。

需要搞清楚的是,这个所谓的异常值跟第2个问题提到的截尾均值里面的那个“截尾”部分不是一个概念 – 被“截尾”掉的数值不一定是“异常值”,而异常值则应该是被截尾的对象。关于这个结论,我自己并没有进行过严格的数学证明,但大家不妨多弄一些奇奇怪怪的数字,然后用Excel模拟验证一下看看。

6****.方差(Variance)

顾名思义,方差就是“差的平方”,统计学上的方差指一组数的中的每个数减掉其平均值之后的差的平方的平均值。

回到我们的例子y=(1,2,3,4,5),其平均值是3,y-3之后的差为:(-2,-1, 0, 1, 2),差的平方为(4,1,0,1,4),其和为10,其平均值为10/5=2或10/(5-1)=2.5,都可以,表现在Excel公式中,一个是var.p( ),var.s( ),其中的p、s分别代表总体(population)、样本(sample)的意思。在实际应用中,哪个都可以,因为它们是反映数据的相对离散程度,不同的数组之间只要是用同一个公式进行计算并对比衡量即可。

7. 标准差(Standard Deviation)

直接对方差开根号就得到标准差。针对我们的例子,我们可以得到的标准差就是根(2)=1.414或根(2.5)=1.581,或者用Excel公式 stdev.p( )、stdev.s( )计算标准差,两个结果都可以。

这个所谓的标准差其实就是传说中的那个西格玛(σ),一个σ 就是一个标准差。如果你认为需求分布符合正态分布,均值±1σ 就能覆盖68%左右的数据分布,均值±2σ 覆盖95%左右的数据分布,均值±3σ 覆盖99%左右的数据分布;如果你不认为需求分布符合正态分布,那就是随机分布,但没有关系,即使这样,均值±2σ 也能覆盖87%左右的数据分布,均值±3σ 也能覆盖95%左右的数据分布,这是根据马尔可夫不等式(《全面库存管理数学分析》第三章的内容)得出的结论。

8. 需求波动率

标准差除以算术平均值就是所谓的波动率,统计学上叫CV(Coefficient of Variation, 变异系数)。这个CV对于我们分析客户或市场需求非常重要,是需求分类的重要指标之一。

针对我们的12345,其需求波动率为1.414/3= 0.471或 1.581/3=0.527。

同样,这个需求波动率是相对而言的,不同产品或者同一产品来自不同的客户、不同的分销中心,其需求波动率可能是不一样的,在我的书《制造业全面库存管理》里面,这个波动率被用来做XYZ分类。

波动率也是衡量需求聚集效应的一个非常直观的指标 – 被合并了的需求的波动率小于合并前单个需求的波动率之和。

9. 一阶差分值(difference)

所谓的一阶差分就是一组数内部相减,老二减老大,老三减老二,减到最后即可。很简单,我们的例子得到的一阶差分结果就是(1,1,1,1)。

一阶差分的意义是什么呢?

还是针对我们的例子,y=(1,2,3,4,5)是一条斜线,而差分后的序列(1,1,1,1)则是一条水平的直线。从供应链管理角度,你是喜欢你的客户给你的需求是斜线呢还是近似水平的直线好一些?

从统计预测角度,不言而喻,水平的直线更好预测一些,因为需求相对平稳。只是需要大家注意的是,统计学上讲的“平稳”可能跟大家脑子里面想象的不太一致。这个平稳的英文单词是stationary,它是指需求的移动平均值相对稳定,尽管一定期间内的需求可能是起起伏伏的,但这个需求并没有明显的上升或下降的趋势,这就是“需求平稳”,它跟 stable 不是一个意思,stable是指稳定的意思,即每期需求大致相同。

10. 需求的趋势函数(trend function)

针对时间轴x=(1,2,3,4,5),出货量y=(1,2,3,4,5)的函数表达式是什么?

我们可以用两种方法得到结果,一种是用Excel作折线图,添加趋势线,选择“线性”,显示公式,我们得到 y=x;另外一种方法也是在Ecxcel里面用 index(linest( ) )求出y=ax+b中的a的值为1,b=0。

函数与方程思想是数学思想宝库的重要组成部分,供应链管理也需要一些函数与方程思维(有关这部分,包括后面两个知识点的详细内容,大家可以参考《全面库存管理数学分析》第六章)。

11. 需求函数的一阶导数(derivation)

需求函数是 y=x,其一阶导数就是 y’=1,如果你跟第9个问题联系起来看,你就会发现,这个一阶导数跟一阶差分值是相等的,都是1,这是为什么呢?

道理很简单,不是很严谨的理解,无限差分就是微分,微分之后即可求导数。无论是一阶差分还是这个一阶导数,都是表示需求的增长速度。

12. 预测第6期的需求值。

有了前面的工作,这个第6期,即6月份的需求预测就很简单了。我们可以用三种方法来完成这个统计预测:

一是差分预测法:根据第9个问题点,我们得到的差分序列是(1,1,1,1),是一条水平的直线,那么,很自然地,我们就“趋势外推”,运用差分的方程 y 6 -y 5 =y 6 -5=1 求得 y 6 =5+1=6。

第二种方法是利用趋势函数:y=x,当x=6的时候,y=x=6

第三种方法则是利用一阶导数:我们知道该函数的一阶导数就是代表着需求增速,而这个值是1,那么,同样很自然地,我们用 y 5 + 1 =y 6 = 5+1 = 6。

当然,简单省事的统计预测方法还有平均值法,即y 6 = 3或者干脆取上一期的值作为下一期的预测,即y 6 =y 5 =5。

除此之外,你也可以考虑用移动平均法,包括我在一篇文章里提到的“自然加权平均法”来预测这个6月份的需求。

但是,无论哪个预测结果,还是那句话,对于统计预测,你信则有之,不信则无。

【写在结尾处】

我相信,绝大多数的读者都是可以搞得懂这12个知识点的,但是,从搞得懂,到用得上,再到用得熟,甚至是用出彩儿来,这可能需要一个过程,你不下点功夫是不行的。所以,不要小瞧这个12345,弄好了,你一样可以用它去打老虎!你甚至可以认为,这就是《全面库存管理数学分析》的极简版本。

另外,我在问卷星上把这12个知识点做成了考试题,链接如下,有时间可以邀请你周边的同事、朋友,尤其是你的老板们做做看,也好顺便测测他们的智商。

https://ks.wjx.top/vm/YDIAWDg.aspx

作者程晓华(John Cheng),全面库存管理(TIM)咨询独立顾问,《制造业库存控制技术与策略》课程创始人、讲师,《制造业库存控制技巧》、《首席物料官(网络)》、《决战库存》、《制造业全面库存管理》、《全面库存管理数学分析(2022年1月已经上市,京东、当当网等皆有售)》著作者,邮箱: [email protected] TIM订阅号:ITOOTD



  • 缂洪挶鎬ョ敤閽辨庝箞鍔
    绛旓細鎯呮劅瀛﹁ 2022-06-14路TA鑾峰緱瓒呰繃1034涓禐 鍏虫敞 1銆佸悜浜叉湅濂藉弸鍊熼挶锛氬湪鎬ラ渶瑕佺敤閽辩殑鏃跺欍備釜浜哄彲浠ヤ紭鍏堥夋嫨鍚戜翰鏈嬪ソ鍙嬪熸锛2銆佹姷鎶艰捶娆撅細鎶垫娂璐锋鐨勬墜缁浉瀵硅緝涓虹箒鐞愶紝璐锋鏂归渶瑕佹彁渚涗竴瀹氱殑鎶垫娂鐗╁搧浣滀负璐锋鐨勬媴淇濓紱3銆佷俊鐢ㄨ捶娆撅細淇$敤璐锋瀵硅捶娆句汉鐨勮姹傛瘮杈冮珮锛屼笖棰濆害浼氭牴鎹釜浜轰俊鐢ㄧ殑涓嶅悓锛屼粠鍑犱竾鍒板嚑...
  • 2022骞村啘鍘嗗叚鏈鍗佸洓閫傚悎鍏ュ畢鍚
    绛旓細2022骞村啘鍘嗗叚鏈鍗佸洓榛勫巻鏌ヨ 銆愬叕鍘嗐戯細鍏厓2022骞07鏈12鏃 銆愬啘鍘嗐戯細鍐滃巻06鏈(澶)14鏃 鏄熸湡浜 宸ㄨ煿搴 銆愬瞾娆°戯細澹瘏骞淬佺敓鑲栬檸銆佷竵鏈湀銆佷笝瀵呮棩 銆愭瘡鏃ヨ儙绁炲崰鏂广戯細鍘ㄧ伓鐐夊姝e崡 銆愪簲琛屻戯細鐐変腑鐏鍗辨墽浣 銆愬啿銆戯細鍐茬尨(搴氱敵)鐓炲寳 銆愬江绁栫櫨蹇屻戯細涓欎笉淇伓蹇呰鐏炬畠 瀵呬笉绁绁為涓嶅皾 銆...
  • 鑺冲饯鐨勮佸叕鏄皝
    绛旓細鑺冲饯鐨勮佸叕鏄倴鎴橈紝鍥犱负閭d箞浠婂ぉ鎴戜滑灏变竴璧锋潵鐪嬩竴涓嬮偅浜涘綋绾㈢殑涓绘寔浜,濂逛滑鐨勮佸叕閮芥槸璋,棣栧厛鍏堣涓涓嬬褰,濂规槸澶鐨勭編濂,涓绘寔涓绘寔浜嗕紬澶氱殑鑺傜洰銆傚師鏉ユ椂鍏夐兘璁板緱闄堣姵褰ゆ潕姝屾磱鑺辩诞,鏈夋効鎰忛櫔浣犱竴璧烽椆鐨勭敺鍙嬫槸浠涔,鏄墖鑺辩被楂樻竻瑙嗛,浜2022-06-14涓婃槧銆傝棰戜富瑕佸唴瀹:鍘熸潵鏃跺厜閮借寰楅檲鑺冲饯鏉庢瓕娲嬭姳锛岃倴鎴樺氨...
  • 鍑虹鎴跨數璐瑰鑳界敵璇蜂紭璐硅ˉ璐村悧
    绛旓細鍑虹鎴跨數璐瑰涓嶈兘鐢宠浼樿垂琛ヨ创锛屾垜鍥界殑鍩庡競灞呮皯浣跨敤涓搴︾數鐨勪环鏍兼槸鍦0.56锛岀浜屾。鐢甸噺鐢佃垂涓虹敤鐢甸噺澶勪簬241鑷400鍗冪摝鏃朵箣闂淬傞樁姊數浠锋槸鎸夌収涓涓數璐圭粨绠楀懆鏈熷唴浣跨敤鐨勭數閲忥紝濡傛灉鎯宠妭鐪佺數璐归偅灏卞敖閲忎笉瑕佽秴杩囩浜屾。銆
  • 鍛ㄦ湯瑁呬慨鍣煶鎬庝箞鍔
    绛旓細鍙屼紤鏃ヨ淇櫔闊崇畻鎵版皯鍚梍2022-06-14 17:00:16 | 鏂囩珷鎽樿锛 寰堝涓氫富鍦ㄥ钩鏃跺伐浣滄棩鍥犱负娌℃湁鏃堕棿锛屽氨鍦ㄥ弻浼戞棩鐨勬椂鍊欒繘琛岃淇紝鏈変竴浜涜淇毦鍏嶄細浜х敓寰堝ぇ鍣煶锛岄偅涔堝弻浼戞棩瑁呬慨鍣煶绠楁壈姘戝悧? 鍙屼紤鏃ヨ淇櫔闊崇畻鎵版皯锛屽洜涓哄懆鍏棩鏄硶瀹氫紤鎭棩锛屽湪杩欎釜鏃跺欐槸涓嶅彲浠ヨ繘琛岃淇傚懆鍏懆鏃ヨ淇彂鍑虹殑鍣煶灞炰簬鎵版皯(...
  • 2022骞存窐瀹618娲诲姩浠涔堟椂鍊欏紑濮
    绛旓細娣樺疂618娲诲姩棰勫敭娲诲姩鏃堕棿锛2022骞05鏈24鏃-2022骞06鏈03鏃ャ傛窐瀹618娲诲姩鐜拌揣娲诲姩鏁翠綋鍒嗕负涓ゆ尝锛(涓)寮闂ㄧ孩 娲诲姩棰勭儹锛2022骞05鏈29鏃-2022骞05鏈31鏃ャ傛寮忔椿鍔細2022骞06鏈01鏃-2022骞06鏈03鏃ャ(浜)鐙傛鏃 娲诲姩棰勭儹锛2022骞06鏈14鏃-2022骞06鏈15鏃ャ傛寮忔椿鍔細2022骞06鏈16鏃-2022骞06...
  • 2022骞存惉瀹堕粍閬撳悏鏃ヤ竴瑙堣〃2022骞存惉瀹舵渶濂界殑鏃ュ瓙
    绛旓細2022骞6鏈堟惉瀹堕粍閬撳悏鏃ワ細10涓 - 鍏厓2022骞06鏈04鏃ワ紝鍐滃巻05鏈(澶)06鏃ワ紝鏄熸湡鍏 - 鍏厓2022骞06鏈08鏃ワ紝鍐滃巻05鏈(澶)10鏃ワ紝鏄熸湡涓 - 鍏厓2022骞06鏈09鏃ワ紝鍐滃巻05鏈(澶)11鏃ワ紝鏄熸湡鍥 - 鍏厓2022骞06鏈12鏃ワ紝鍐滃巻05鏈(澶)14鏃ワ紝鏄熸湡鏃 - 鍏厓2022骞06鏈14鏃ワ紝鍐滃巻05鏈(澶)16鏃...
  • 2022骞10鏈29鏃ュ噺鍘147澶╂槸鍑犳湀鍑犳棩?
    绛旓細浣犲ソ锛氳В锛2022骞10鏈29鏃ュ噺鍘147澶╂槸2022骞06鏈04鏃ワ紝鏄熸湡鍏傝繖涓彲浠ョ敤鏃ユ湡璁$畻鍣ㄨ绠椼傚噺鍘147澶╋紝杈撳叆鏁板瓧鏃讹紝鏄礋鏁帮紝鏄-147澶┿傝繖涓娉ㄦ剰銆
  • 2022-06-18
    绛旓細        2022骞6鏈14鏃ワ紝鎴戜滑浠庨粦榫欐睙鐪佷笉鍚屽湴銆佸競銆佸幙銆佸尯鍚勬墍涓绾垮皬瀛﹀嚭鍙戯紝榻愯仛鍝堝皵婊ㄧ櫨绁ュ亣鏃ュ棣嗭紝杩涜涓鍦轰负鏈8澶╃殑榛戦緳姹熺渷涔℃潙涓皬瀛﹂亾寰蜂笌娉曟不鏁欏笀鐨勫煿璁傘愯闈細銆        6鏈14鏃ユ櫄6锛00锛屽攼娓╁鍦ㄧ櫨绁ュ棣7妤间細璁腑蹇冧竴娆″埆寮鐢...
  • 涔濆窞閫氳偂绁ㄥ垎0.3鐜伴噾,鏁f埛鏈夊悧?
    绛旓細涔濆窞閫氳偂绁ㄥ垎0.3鐜伴噾,鏁f埛鏈夊悧?~~~鍏憡鏃ユ湡 鍒嗙孩鏂规鑲℃潈 鐧昏鏃 闄ゆ潈闄ゆ伅鏃ユ淳鎭棩鏂规杩涘害鍒嗙孩褰卞搷 2022-06-07 10娲3鍏 2022-06-13 2022-06-14 2022-06-14 瀹炴柦鏂规 鍙浣犲湪鐧昏鏃6鏈13鏃ユ敹鐩樿嚜宸辫处鎴锋湁杩欒偂绁 灏辨湁10鑲℃淳3鍏冪殑鍒嗙孩锛侊紒杩欐槸鏃ョ嚎鍥撅紒锛佷粠鍥炬垜浠彲浠...
  • 扩展阅读:领克06油电混合suv价格 ... 万年历查询表完整版 ... 土工格栅最新规范 ... 万年历2024最新版 ... 2406.2-2009道客巴巴 ... 领克是国产还是合资 ... 老黄历查询 ... 中华万年历免费版下载安装 ... 正版老黄历2022万年历 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网