精神分裂症论坛

首页 » 常识 » 常识 » 综述解读精神疾病信号的资源和工具文
TUhjnbcbe - 2020/10/29 13:46:00
Biol.Psychiatry文献

EmergingMethodsandResourcesforBiologicalInterrogationofNeuropsychiatricPolygenic-Signal

综述—解读精神疾病信号的资源和工具

过去的五年,功能基因组学的飞速发展产生了许多用于解读复杂性状的遗传信号的资源和工具。今天小编给大家分享的是DaniellePosthuma教授和她的学生EmilUffelmann最近发表在BiologicalPsychiatry(IF=12.,)上的综述文章EmergingMethodsandResourcesforBiologicalInterrogationofNeuropsychiatricPolygenic-Signal即,解读精神疾病信号的资源和工具。

小编最近的几篇文章,都在探讨此问题,而本文将以分享文献的形式,对目前的资源和工具进行总结。

思维导图梗概制作:夏梦馨研究思路

解读GWAS信号的首要任务是找到这些疾病相关的信号对基因功能的影响(putativeimpact)。一般来说,遗传变异影响疾病风险的方式有两类:

第一,影响蛋白质的结构,使得基因的功能丧失,或部分丧失,或不能降解等,从而产生特定的表型,如位于外显子上的非同义突变和影响可变剪切的突变多通过这种方式来产生其效应。

第二,影响基因的表达量,使得基因的数量增多或减少,而没有正常的量来完成特定的功能,从而产生特定的表型,如位于增强子或启动子等调控区域上的突变多通过这种方式来产生效应。

解读遗传变异的基因功能的资源

为更好的对疾病相关的信号产生的效应进行区分/注释,可借助4个方面的资源进行解读:遗传变异的定位和注释信息,转录图谱,表观遗传图谱,和染色质结构图谱。

遗传变异的定位和注释方面:

二十年前,人类基因组草图(HGP)的完成给了我们人类基因组三百万个碱基的对包含的序列信息,发现人类基因组上除了编码蛋白质的序列外,大部分是不编码蛋白质的序列。随后,为了解读这些非编码序列的功能,基因组百科全书(ENCODE)项目利用一系列的遗传和表观遗传实验,加上大规模的生物信息计算,给出了更详细的基因组注释信息。除此之外,千人基因组,gnomeAD等国际合作项目也给出了不同人群的基因组信息,提供不同人群的填补模板。有很多工具,基于如上的信息进行遗传变异的注释,这些注释工具可预测变异是否影响蛋白质结构,是否位于调控区域等。

在我们以往的分享中,也分享过UCSC,HaploReg,mirDNMR等工具,是基于定位和注释的一些工具,大家可点击去了解~

转录图谱和表观遗传图谱:

近年来的一些大的国际合作项目,已经生产了大量的死亡后尸检组织的转录组和表观遗传组数据,如GTEx项目,ROSMAP项目和PsychENCODE项目等。这些项目多是从解析基因表达调控以解读复杂疾病的角度出发,收集不同组织类型,不同年龄分布和不同疾病状态等多组学数据,从基因型,到转录组和表观遗传组等。

在我们以往的分享中,也分享过GTEx项目,ROSMAP-xQTL等项目的文献,大家可点击去了解~

小编实验室去年的综述文章也对这些项目的脑组织数据进行了总结,如下图所示:

参考文献:WangL,XiaY,ChenY,etal.BrainBanksSpurNewFrontiersinNeuropsychiatricResearchandStrategiesforAnalysisandValidation[J].GenomicsProteomicsBioinformatics,

染色质结构图谱:

值得注意的是,我们的基因组并不是一个线性排列的序列,而是盘曲折叠形成复杂的三维结构,对基因组三维结构,也就是染色质结构的研究可以帮助我们理解基因的长距离调控.

参考文献:Sati,S.,Cavalli,G.Chromosomeconformationcapturetechnologiesandtheirimpactinunderstandinggenomefunction.Chromosoma,33–44().

优选Causal基因的工具

值得一提的是我们之前介绍的FUMA平台,很好的整合了如上的许多资源,可以轻松实现从GWAS信号到疾病相关列表和功能的转换。

需要注意的是,除了功能注释外,一些统计学的精准定位的方法对于优选潜在的致病基因也非常重要。

优选致病基因最简单的思路便是使用p值,一定区域中,p值最小的位点,显著性最强,有一些研究就将这些p值最小的位点作为最可能的致病基因进行研究。实际上,一个区域中p值最小的位点不一定是causal位点,受到连锁不平衡的影响,他们也可能只是与致病位点连锁的位点,而连锁位点越多的位点其p值小的可能性更大。一些基于贝叶斯网络的方法也发展出来,这些方法充分考虑了连锁不平衡和样本量等的影响,可以帮助我们计算每个位点是causal的概率,如FINEMAP,polyFUN和SuSiE等方法。

另外一种策略则是利用GWAS信息和一些分子表型的共定位优选潜在的causal基因,包括TWAS和一些共定位的软件如COLOC,eCAVIAR,Enloc,FOCUS等.

这些方法在小编实验室的综述文章中,也有总结,详情也可戳如下文章:

基因到功能

就像我们在最近的文章中经常提到的那样,由于神经精神疾病等复杂性状的多基因参与的显著,要想为接下来的功能试验提供更多参考依据,从通路水平入手,如基因集富集分析,是个不错的选择。

目前可用于对GWAS信号进行基因集富集的工具已经有很多,而应用最多的是stratifiedLDSC和MAGMA。尽管严格意义上说,StratifiedLDSC不是一个基因集富集工具,但是它确实可以用于评估SNP的遗传度是否富集在一些特定功能的变异中。MAGMA是广泛应用的基因集分析工具,是GWAS后处理的标准流程之一,在进行基因集富集的过程中,MAGMA考虑了基因的大小,基因的密度,Minorallele和基因数目等对富集效果的影响,并进行了条件独立实验进行控制。

在进行基因集富集分析的过程中有几个问题需要注意:

1.基因集的富集分析的统计效应power,与GWAS的样本量的关系不大,主要受每个基因的效应值的大小和基因集合中的基因数目的影响。如果一个基因集中的基因能够解释的遗传度5%,那么个基因的基因集合仍然有足够的(80%)统计效力,而25个基因的基因集合可能就会统计效力不足。而对于一个基因集能解释的遗传度20%的,那么个基因的基因集合和25个基因的基因集合的统计效率差不多。

2.对于多基因效应性状,

1
查看完整版本: 综述解读精神疾病信号的资源和工具文