连锁不平衡(linkage disequilibrium,LD)
是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率现象。一般用D,D’ 和 r^2^来表示LD的程度。
D 是LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差,算法如下:
D=P(AB)-P(A)*P(B);
其中:P(AB)表示实际观察到的AB频率,P(A)*P(B)表示AB频率的期望值。(如果发生连锁不平衡,实际观测到的AB频率肯定不等于AB频率的期望值)
如果D值显著偏离0,则说明存在LD。因为D的取值强烈地依赖于人为制定的等位基因频率,所以它不利于LD程度的比较。
标准化的不平衡系数D’能够避免这种对等位基因频率的依赖。D’的计算方法如下:
D’=D/Dmax
当D<0, Dmax=min{P(A)P(B),P(a)P(b)}
当D>0, Dmax=min{P(A)P(b),P(a)P(B)}
当D‘=1,表示连锁完全不平衡,没有重组
当D‘=0,表示连锁完全平衡,随机组合
但D’也有它的局限性,比如当单倍型为2种或3种时,|D’|一定等于1,但是当|D’|<1时,D’的值究竟表示多大程度的连锁不平衡,是很难做出准确判断的。另外D’严格依赖于样品的大小,如果样本偏少时,snp数量比较少,这样算出来的D’就会偏大,尤其是某个位点其中一个等位基因频率很低时,因此较高D‘背后,实际上可能是连锁不平衡程度很低的两个位点。因此只有统计学上显著性接近1的D’值才能够解释这两个位点之间有较小的历史重组,这时就需要引进r^2^来表示LD,r^2^的计算方法如下:
r^2^=D*D/(P(A)P(a)P(B)P(b))
当r^2^=1,表示连锁完全不平衡,没有重组
当r^2^=0,表示连锁完全平衡,随机组合
D’与r^2^从0-1度量越高,LD越高,如果两个位点连锁,连锁程度也越强
同时,r^2^=1有更严格的解释:两个位点的等位基因有相同的频率,并且一个位点某个等位基因的出现完全预示着另外一个位点相应等位基因的出现,这时候两个位点组成的四种可能的单倍型仅表现为两种。与D’相比,r2在连锁不平衡中更加有用,因为其具有较强的群体遗传学理论基础和一些统计学上的优势:
- r^2^的期望值和有效种群大小和重组系数相关,r^2^=1/(1+4NeC),其中Ne是有小种群大小,C是重组系数。
- r^2^有很好的取样特性,样本量和r2的乘积就是所观察到的关联水平概率对应的卡方值。在检测snp和致病位点之间的关联时,如果要达到同样的统计效力,所需要的样本量要增大1/r2倍。例如,假设snp1与疾病相关,我们要对它附近的snp2进行基因分型,他们之间的LD系数r^2^=0.5,为了达到与snp1位点检测相同的统计效力,必须把样本增加2倍。
- 与D’相比,在同样长度的染色体范围内,r^2^往往更低,这个特性能够帮助我们找到更精度的基因定位。
- r^2^和D’相比,受样本量和等位基因频率的影响较小(但影响仍然存在)
summary
- r^2^和D’反映了LD的不同方面。r^2^包括了重组和突变,而D’只包括重组史。D’能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D’不适合小样本群体研究
- LD衰减作图中通常采用r^2^来表示群体的LD水平;Haplotype Block中通常采用D’来定义Block
- 迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD的改变
example
假设两对等位基因Aa, Bb
1. 完全平衡
1 | AB AB AB Ab Ab Ab aB aB aB ab ab ab |
P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5
D=0.25-0.5*0.5=0
D’=r^2^=0
2. 部分连锁
1 | AB AB AB AB AB AB Ab Ab Ab ab ab ab |
P(A)=0.75, P(a)=0.25, P(B)=0.5, P(b)=0.5
D=0.5-0.75*0.25=0.125
D’=0.125/min{0.75*0.5, 0.25*0.5}=1
r^2^=0.125*0.125/(0.75*0.25*0.5*0.5)=0.33
3. 完全连锁
1 | AB AB AB AB AB AB ab ab ab ab ab ab |
P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5
D=0.5-0.5*0.5=0.25
D’=0.25/min{0.5*0.5, 0.5*0.5}=1
r^2^=0.25*0.25/(0.5*0.5*0.5*0.5)=1
Reference: https://blog.csdn.net/u014182497/article/details/52788823
连锁不平衡的衰减(Linkage disequilibrium (LD) decay,LD decay)
LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;LD衰减的速度在不同物种间或同物种的不同亚群间,往往差异非常大。所以,通常会使用1个标准——“LD衰减距离”来描述LD衰减速度的快慢。
LD衰减距离通常指的是:当平均LD系数r^2^衰减到一定大小的时候,对应的物理距离。“一定大小”是这个定义的关键点,但没有特别统一的标准,在不同文章中标准不同。常见的标准包括:
- LD系数降低到最大值的一半;
- LD系数降低到0.5以下;
- LD系数降低到0.1以下;
- LD系数降低到基线水平(注意,不同物种的基线值是不同的)。
值的获取:成对计算指定距离范围内的所有SNP的r^2^值,按区间取平均
在经典的群体遗传学范畴内,LD 的衰减是受重组率和重组代数(the number of generations of recombination) 影响的。因此,研究 LD 的衰减可以揭示群体重组的历史。比较慢的 LD 衰减模式一般认为与群体大小降低有关(Zhao et al, 2013)。与等位基因的频率相结合,LD 衰减也可以用于检测正向选择(Sebeti et al, 2002)。
应用:
- 判断GWAS所需标记量,决定GWAS的检测效力以及精度
GWAS标记量 = 基因组大小/LD衰减距离
- 辅助分析进化与选择
在同一个连锁群上,LD衰减的慢说明该群体受到选择。一般来说,野生群体比驯化改良群体LD衰减快,异花授粉植物比自花授粉植物LD衰减快。比如玉米:地方品种1kb,自交系2kb,商用自交系100kb。
单体型块(Haplotype Block)
单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域。单体型块分析可以用于筛选tag SNP、确定候选基因的范围等。
如果GWAS检测到显著关联的区间,可以通过进一步绘制局部的LD单体型块图,来进一步判断显著相关的SNP和目标基因间是否存在强LD关系。
Reference: http://www.sohu.com/a/234594093_761120
软件
PopLDdecay
- 支持直接读取 VCF 文件
- 输出文件非常节省空间
- 计算时间相对较短
- 支持 subgroup 的分析
- 直接生成LD衰减图
参数详细介绍:https://www.wxwenku.com/d/109425162
1 | /wtmp/user124/software/PopLDdecay-3.40/bin/PopLDdecay -InVCF Alg.onlysnp.vcf.gz -OutStat alg.LDdecay; |
Plink
- 需要将PDF转换成.map或.ped格式,才能进行计算
PLINK: a toolset for whole-genome association and population-based linkage analysis
Haploview
- 需要准备.ped 和 infor文件
Haploview: analysis and visualization of LD and haplotype maps
参数详细介绍:https://www.worthfo.com/p/778390/
Reference: http://blog.sciencenet.cn/blog-656335-1168505.html