熵(entropy)在统计分析学中是一个太重要的定义,意味着着信息内容的是多少。经济发展学里边考量贫富差别的基尼系数,及其自然环境微生物学行业考量种群多种多样性的辛普森多种多样性指数值,及其免疫力组库行业的D50都是有如出一辙之妙。
基尼系数间距一般人的日常生活近期,通俗化一点来了解:
例如有10本人,她们的月工资全是两万,那麼这10本人构成的小包团体的基尼系数便是0,表明沒有贫富差别假如她们的月工资全是三万,基尼系数也依然是0 ,由于大伙儿都一样。
应用R编码,仿真模拟那样的10本人小包团体:
n=3 a=rep(n,10) b1=a/sum(a) b1 # 最先每一个人的收益全是三万 plot(cumsum(b1),type = 'l') a=1:10 a=sort(a) b2=a/sum(a) b2 ## 随后每一个人的收益也不一样,相距一万 points(cumsum(b2),type = 'l') a=c(1:9,100) a=sort(a) b3=a/sum(a) b3 # 最终,假设在其中一本人收益是一百万,漫漫领跑剩下的9本人 points(cumsum(b3),type = 'l') y1=as.numeric(table(b1)/length(b1)) y2=as.numeric(table(b2)/length(b2)) y3=as.numeric(table(b3)/length(b3))
以下所显示:
在图中中,10本人,依照收益排列(升序)后,收益积累的占有率。
那麼,親愛的的阅读者,你可以以猜想一下,大家我国的意味着贫富差别的基尼系数多少钱?
国际性国际惯例把0.2下列视作收益肯定均值;0.2-0.3视作收益较为均值;0.3-0.4视作收益相对性有效;0.4-0.5视作收益差别很大;当基尼系数做到0.5之上时,则表明收益差距。
香农信息内容熵一样的10本人,一样的月工资全是两万,信息内容熵便是0,一样的,每一个人的收益假如是三万,都不会危害信息内容熵便是0这一结果。可是假如10本人的收益是1到十万这10种状况,这10本人的信息内容熵就非常大了,是3.32,可是这10本人的收益是多少其实不危害信息内容熵的結果,不管是不是有一本人收益达到上百万或是过亿,这一信息内容熵全是3.32,意味着着这10本人的小包团体很不一样。
因此信息内容熵其实不可用来考量贫富差别哦。有趣的是,假如10本人变为了一百个人,一样的收益也不一样,这一情况下的信息内容熵是6.64,换句话说信息内容熵竟然是跟总数相关哦。可是有一个纠正后的香农信息内容熵,能够抹除总数的危害,编码以下:
R编码涵数以下:
# 默认设置x 是一个人群的,每一个人的收益,标值构成的空间向量 shannon.entropy -function(x,type='raw'){ if(type=='raw'){ myfreqs - table(x)/length(x) myvec - as.data.frame(myfreqs)[,2] }else{ myvec=x -sum(myvec * log2(myvec)) metric.entropy -function(x,type='raw'){ if(type=='raw'){ myfreqs - table(x)/length(x) myvec - as.data.frame(myfreqs)[,2] }else{ myvec=x -sum(myvec * log(myvec,length(x))) ## modify shannon.entropy to metric entropy
在其中shannon.entropy涵数其范畴0 =I(x) =1,合乎形象化体会。
shannon.entropy(b1) [1] 0 shannon.entropy(b2) [1] 3.321928 shannon.entropy(b3) [1] 3.321928 metric.entropy(b1) [1] 0 metric.entropy(b2) [1] 1 metric.entropy(b3) [1] 1
换句话说,假如shannon.entropy贴近于0,意味着信息内容量非常少,贴近于1意味着信息内容量大。
辛普森指数值辛普森多种多样性指数值(Simpson index),叙述从一个群落种持续2次取样个人所得到的个人数归属于同一种的几率。
其公式计算以下:D=1-∑(Ni(Ni-1))/(N(N-1)),在其中Ni为群落中第i种的个人数,N为群落中常有一种的个人数。
如群落A,有甲99个,乙一个;群落B,有甲50个,乙50个;容易得到前面一种辛普森多种多样性指数值=0.0198,后面一种希普森多种多样性指数值=0.5000。换句话说辛普森指数值越大,种群多种多样性越丰富多彩,但辛普森指数值较大不超出1。
R编码涵数以下:
# 默认设置x 是一个人群的,每一个人的收益,标值构成的空间向量 Simpson.index -function(x,type='raw'){ if(type=='raw'){ myfreqs - table(x)/length(x) myvec - as.data.frame(myfreqs)[,2] }else{ myvec=x -sum(myvec * log(myvec,length(x))) 1-sum( myvec ^2)
結果以下:
Simpson.index(b1) [1] 0 Simpson.index(b2) [1] 0.9 Simpson.index(b3) [1] 0.9 Simpson.index(1:100) [1] 0.99 Simpson.index(1:1000) [1] 0.999
非常值得留意的是辛普森多种多样性指数值和香农信息内容熵也不关注实际每一个人的收益是多少,只统计分析各种各样收益标值状况在群体出現的頻率开展各有公式计算测算就可以。
GINI系数基尼系数是原本是一个国际性通用性的经济发展学定义,用于考量贫富差别。基尼系数接近0-1中间,基尼系数越大,表明高低不平等水平越高。
基尼系数较大为1,表明住户中间的收益分派肯定高低不平均,即100%的收益被一个企业的人所有占据了; 基尼系数最少为0,表明住户中间的收益分派肯定均值,即人和人中间收益彻底公平,沒有任容何差别。假设一定总数的人口数量按收益由低于高次序排长队,分成总数相同的n组,从第一组到第i组人口数量总计收益占所有人口数量全年收入的比例
该公式计算是运用定積分的界定将对洛伦茨曲线图的積分(总面积B)分为n个等高梯形的总面积之和获得的。(不明白沒有关联哈)
R编码涵数完成以下:
gini.index -function(x){ x - sort(x) G - sum(x * 1L:length(x)) G - 2 * G/sum(x) - (length(x) + 1L) G/length(x) gini.index(b1) [1] 0 gini.index(b2) [1] 0.3 gini.index(b3) [1] 0.6724138
非常值得留意的是,基尼系数越下,意味着收益越均值,能够了解为多种多样性就越好!
并且基尼系数关注实际每一个人的收益状况,换一种叫法便是基尼系数与辛普森多种多样性指数值和香农信息内容熵的键入数据信息方式实际上不是一样的:
键入1和2这2个数,来测算香农信息内容熵結果是1,辛普森多种多样性指数值是0.5; 可是对基尼系数来讲,键入1和2这2个数,具体上非常于键入了一个a和两个b,便是3个原素。 韩健创新的免疫力组库多种多样性D50这一D50实际上便是饱和状态度曲线图里边的做到50%饱和状态度,据韩健说成他第一次运用到免疫力组库行业。把全部CDR3编码序列(原素)依照占有率占比排列,从最大往最少累加,做到50%的总编码序列情况下的CDR3编码序列类型占比,便是相近于饱和状态度曲线图。
D50较大为0.5,寓意着所有的CDR3编码序列占有率一致,多种多样性好; D50最少为0,寓意着有且仅有一种CDR3编码序列,多种多样性差。R编码涵数以下:
d50.index -function(x,type='raw'){ if(type=='raw'){ myfreqs - table(x)/length(x) myvec - sort(as.numeric(myfreqs),decreasing = T) }else{ myvec=sort(x,decreasing = T) len=length(myvec) state=cumsum(myvec) sum(myvec)/2 (len -sum(state))/len #
結果以下:
d50.index(b1) [1] 0 d50.index(b2) [1] 0.5 d50.index(b3) [1] 0.5 d50.index(1:100) [1] 0.5 d50.index(1:1000) [1] 0.5 d50.index(c(1,2,2,2,3,4)) [1] 0.25
非常值得留意的是免疫力组库多种多样性D50限制是0.5,由于这一情况下群体收益的下降排列,不能能一半的高收益人群竟然还达不上所有群体的一半的收益。一般状况是,1%的人就占社会发展收益的一半了,因此D50一般是0.01乃至更小值。
上边我写的4个公式计算里边仅有基尼系数测算务必键入的是标值,或是把非标值自变量取频数后再开展测算。并且只是是仅有基尼系数是越大,贫富差别越大,多种多样性越差。其他的标值全是越小多种多样性越差。
实际上,聪慧的你,这一情况下应当是能够作出来一个小结报表。