文章来源:中华放射学杂志,54(7):-
作者:孙怀强龚启勇
摘要精神影像研究随着机器学习技术的引入,已逐渐从揭示患者与正常对照的差异过渡到对个体进行辅助诊断。笔者就现有基于机器学习的精神影像研究进行概述,同时指出目前已有研究在数据质量和分析方法上可能存在的误区,并对精神影像结合机器学习的未来发展方向做出展望。两者的结合有望成为精神疾病临床诊疗中的重要工具。
根据?年最新流行病学调查,我国6大类精神障碍(心境障碍、焦虑障碍、酒精/药物使用障碍、精神分裂症及相关精神病性障碍、进食障碍、冲动控制障碍)的加权12?个月患病率为9.3%(95%CI5.4%~13.3%),加权终生患病率为16.6%(95%CI13.0%~20.2%)[1]。由于精神疾病无特异病征及确切的实验室检查,精神疾病的诊断仍是由医师根据症状进行主观判断。这种诊断模式严重依赖于医师的临床经验,而且由于社会偏见和歧视,部分患者及家属会设法隐藏临床症状,因此给精神疾病的早期诊断和干预、治疗带来极大困难[2]。
一、MR精神影像技术在精神疾病中的早期探索通过MR影像技术对精神疾病患者,尤其是精神病性障碍和心境障碍患者的大脑结构及功能进行探索是近几年来精神疾病领域研究最重要的突破之一[3]。前期研究证实了利用高分辨三维MRI、扩散MRI、功能MRI等成像新技术并结合定量分析算法能够探测到精神疾病患者在大脑结构和功能上与正常对照之间存在的细微差异[4,5,6],但这种差异往往存在于三维结构或更深层次的脑网络连接信息中,在日常基于放射科医师二维阅片的临床诊断中难以被发现。
影像研究的目的不仅仅在于发现患者与正常对照间的差异,更重要的是能利用影像研究的结果来辅助疾病诊断、判断预后或是揭示疾病的机制[7]。由于精神疾病的发病机制目前尚不清楚,即便是遗传学或分子生物学层面的研究也未能完全解释精神疾病的发病机制[8]。而目前人体活体影像研究的尺度多在毫米或亚毫米级别,在揭示疾病的机制方面的能力较为有限。因此精神疾病的影像研究应着重于探索能够用于辅助诊断或者判断预后的影像表征。
虽然过去十年中关于精神疾病的影像学证据激增,但影像研究成果对精神疾病的临床实践的影响仍然十分有限,即便是最新版的精神疾病诊断手册DSM-5也未纳入影像学指标[9]。主要原因是前期大部分精神疾病的影像学研究采用的是基于病例对照组间比较的研究策略,即一组患者(或某种患者亚组)与一组以不患有该病但具有可比性的个体作为对照就某个特定影像指标进行比较,判断是否可以得出有统计学意义的影像学差异[4,10]。但这种分析方法存在诸多局限并制约了精神疾病的脑影像研究向临床应用转化:(1)组间比较往往假设检测指标在两组人群中都服从正态分布并且方差一致,但研究表明精神疾病患者群体中存在高度异质性,因此先验假设很难成立;(2)组间比较仅能揭示群体间差异,无法对个体进行诊断。
将组间影像差异转变为能够用于辅助诊断或预后判断的影像表征,需要对该影像表征在两组间的变异系数进行考察。用于临床诊断的影像表征需要有较大的组间差异和较小的组内变异,否则会造成较大的假阳性或假阴性。
二、机器学习技术在精神影像中的初步应用目前已经广泛用于电子邮件过滤、商品推荐、语音识别的机器学习算法有望解决上述问题。一般而言,机器学习可分为监督学习和非监督学习,监督学习算法能够从已有标签的数据中总结出规则或模式并形成判别模型,该模型可对新的数据进行预测或者分类;无监督学习则是在无标签的数据中根据数据点的分布情况探索数据集中可能存在的结构。在前期的研究中,已有学者将MR精神影像来源的特征输入到机器学习算法中构建疾病分类或预测模型。输入的特征可以是灰质结构相关的,例如皮层厚度[11]或是基于体素形态学的灰质密度[12],也可以是由扩散MR测量得到的脑白质扩散性质,例如各向异性分数等[13]。与组间比较研究不同,机器学习类研究的效能主要通过其对新数据样本的预测能力来评估,常用的度量参数包括准确度、灵敏度、特异度以及ROC曲线下面积等[14]。
现有的基于监督学习的精神疾病影像研究主要集中在三类问题的判别或预测:(1)患者与健康对照的判别;(2)高危人群/患者亲属与健康对照的判别;(3)疾病进展或对治疗反应的预测。Johnston等[15]使用高分辨3DT1图像结合支持向量机(supportvectormachine,SVM)研究了20?例难治性抑郁症患者和21?名健康对照,分类准确性为85%。也有研究者采用基于扩散张量成像(diffusiontensorimaging,DTI)技术的白质信息进行分类,如Qin等[16]利用白质纤维束构建的脑结构网络参数研究了29?例抑郁症患者和30?名健康对照者,结合最大相关最小冗余特征选择算法(mRMR)和SVM分类器,分类准确性为83.05%。在精神分裂症的影像研究中,大多研究者采用来自结构MR或者功能MR的特征结合SVM或者随机森林分类算法对患者和健康对照进行分类研究,取得的分类准确性在61.8%~95.0%之间[17]。而在注意缺陷多动障碍(attentiondeficithyperkineticdisorder,ADHD)研究领域,国际神经影像数据共享协会(InternationalNeuroimagingData-sharingInitiative,INDI)发布了ADHD数据集,并发起ADHD全球竞赛,旨在鼓励开发最优的基于影像的ADHD诊断算法[18]。该数据集来自全球8?个独立的成像中心,包含?名正常对照和?例多动症患者的T1结构像和静息态功能MR数据。最后冠*由来自美国约翰·霍普金斯大学的团队获得,其开发的算法识别了94%的正常对照,但仅识别了21%的患者,且在正确识别的患者中取得了89.47%的亚型判别准确率[19]。该结果表明ADHD影像诊断算法在灵敏度上还有很大提升空间。
非监督学习往往用于探索患者群体中是否存在异质性亚群。Sun等[20]从首发精神分裂症患者的扩散MR数据中提取了大脑中18条主要白质纤维束的扩散特征并结合分层聚类算法,首次在精神分裂症患者群体中发现了两个不同的白质异常模式:一种模式表现为广泛分布的白质异常区域;而另一种模式仅表现为局部白质异常,异常部位集中在左侧上纵束。从临床症状上看,存在广泛白质异常的患者亚组具有更严重的阴性症状。Drysdale等[21]利用?例抑郁症患者的静息态功能MR数据进行影像分型,发现其分型结果可以预测患者对经颅磁刺激治疗的反应。Dinga等[22]将该研究的分析方法用于另一组抑郁症患者群体(n=),但发现无法重现原始研究的结果。因此关于非监督学习的可重复性还需进一步验证。
三、现阶段基于机器学习的精神影像研究的问题和挑战基于先进MR影像技术和机器学习的研究策略为精神疾病的影像诊断打开了新的思路,且已有部分研究取得了较为满意的分类/预测准确性,但对现有结果的可靠性和可重复性仍应保持谨慎的态度,且目前仍然存在诸多问题亟待解决。
1.样本量小,特征维度高:
机器学习研究一般需要大量已有标签的数据对分类器进行训练。但限于医学影像数据获取难度大、成本高,现有研究中纳入的样本量多在几十例,少数多中心研究能达到上百例[23]。“样本量小,特征维度高”是精神影像研究的数据特点。由于这一特点,机器学习中的模型过拟合问题常常发生[24]。
2.部分研究方法使用不当,存在选择偏倚:
机器学习中的选择偏倚问题最早是由生物信息学家在分析基因芯片数据时发现的[25]。基因芯片数据和影像数据都具有样本量小、特征维度高的特点,为避免在模型训练阶段出现过拟合,大部分研究会在模型训练前加入特征选择步骤,利用特定算法筛选出与预测目标最为相关的特征,去除无关、冗余的特征以达到降低特征维度的目的。另一方面,由于生物医学研究样本采集的成本高,为使每个样本都能得到充分利用,大多数研究采用“交叉验证”的方法来评估判别模型的性能。当非机器学习专业研究者在一个研究中同时采用了特征选择和交叉验证时,会误认为特征选择是模型训练前的预处理步骤,而交叉验证是模型训练后的验证的步骤,因此把特征选择放在交叉验证前,且把全部数据输入特征选择。这样做的后果是在后续的交叉验证中,测试数据虽没有直接参与训练,但实际在特征选择时已经泄露到训练过程中,使得评估得到的性能虚高于模型的实际性能。样本量越小,特征维度越高受选择偏倚的影响越大。正确的流程是特征选择应该嵌套进交叉验证的循环中。
3.数据采集缺乏标准,数据质量参差不齐:
前期精神分裂影像研究中采集的数据缺乏标准化,所采用的成像序列和成像参数参差不齐,且已有研究证实机器学习模型的性能会受到成像参数的干扰。广泛用于扩散MR和功能MR的平面回波序列(echoplanarimaging,EPI)对磁场均匀度十分敏感,极易在额叶、颞叶等组织与空气交界处形成图像畸变和信号丢失[26],而这些脑区恰好是精神疾病重点研究的区域。虽然在MRI领域提出了很多校正方法[27],但由于需要进行额外的扫描并进行复杂的计算,使得这些校正方法在临床应用研究中没有被广泛采用。此外,扩散MR的分析对影像采集有特殊的要求,前期不少研究利用DTI技术研究精神分裂症患者的结构网络[28],但张量模型的缺陷在于无法解析纤维交叉的情况[29],因此基于张量模型构建的结构连接网络得到的结果易出现假阴性。同时有研究指出,大脑不仅存在基于低频信号变化的功能连接,也存在基于高频信号变化的功能连接[30],而目前大多数研究采用的重复时间≥2s的静息态功能MR采集方案无法重建出这种基于高频信号的功能连接。
四、基于机器学习的精神影像发展方向鉴于上述问题和挑战,精神影像的未来发展应从以下几个方面开展。1.标准化数据库的建立:
影像不仅是图片,而是可挖掘的数据。高质量数据库的建立是基于机器学习的精神影像研究进一步发展的重要工作,一个高精度的预测模型必须要有高质量的数据支持,所以标准规范化的数据采集方案和数据库是精神影像技术应用到临床的首要保证。各国研究人员已经在建立标准的MR精神影像采集方案上做了大量工作,其中最有影响力的当属人脑连接组计划(humanconnectionproject,HCP)推荐的扫描方案[31]。HCP是由美国国立卫生研究院出资,由10家研究机构多名研究人员参与的首次大规模收集和共享人脑详尽数据的研究计划,通过影像构建个体的结构和功能连接组,以期解决与之相关的人类大脑各部分协同工作的原理,是当今神经领域最高级别的研究计划。HCP推荐的扫描方案中包括结构成像、扩散MR、静息态功能MR、任务态功能MR等[32],该方案非常巧妙地设计了一系列互补成像参数和辅助校正序列,并配套了专门的后处理程序,成功解决了现有成像技术所造成的图像畸变等问题[33]。我国多家MR成像研究中心、科研院所、医院和MR设备厂商共同发起成立的中国脑成像联盟也提出了适用于中国人脑成像临床科研型的多模态成像序列,包括高分辨率T1、T2结构像、血氧水平依赖像、DTI像等主要序列的标准化参数以及该套序列和参数的使用手册。但这些推荐扫描方案针对的主要是正常受试者,设计的扫描时间较长。精神疾病患者耐受程度远低于正常人,因此需在保证采集到足够分析所需要的信息的情况下,结合实际情况对扫描方案进行精简或在合适的位置设置间断点。
2.建立标准化的机器学习分析流程:
目前对于机器学习算法模型的选择和参数微调尚无统一流程[34]。前期研究大多采用比较成熟或者流行程度高的算法,如SVM、随机森林等,少量研究采用多个特征选择算法与多个模型两两组合并进行性能比较来判断最优方案。但随着机器学习不断发展,新算法及其变种不断涌现,若对所有的模型算法进行测试需耗费大量精力,且选择复杂性超出了临床医师或者临床应用研究者的知识范围。新近提出的自动机器学习有望解决该问题。自动机器学习可以看作是内置特定搜索算法的控制系统,根据待研究数据的特点自动选择最适宜的预处理步骤和模型算法及配套的最优超参数集。常用的自动学习搜索算法基于贝叶斯优化或者遗传算法,目前已有的自动学习软件包有Auto-WEKA、auto-sklearn、TPOT等。根据PubMed搜索,自动机器学习技术在医学影像领域的应用较少,因此还需在将来的研究中对该方法进行系统全面的评估。
3.引入深度学习:
深度学习是机器学习的一个分支,近年来已经在自然图像识别、语音识别和文本翻译等领域取得了巨大的进步。深度学习在精神影像领域也是非常有应用潜力的工具,深度学习可以直接输入图像并实现自动特征学习,避免了常规机器学习中特征提取、选择等步骤的主观性,尤其是在精神疾病这种病变脑区不明、先验知识不确定的情况;深度学习通过多层神经网络叠加,能够对非常复杂的的数据模式进行建模,因此相较于传统的浅层模型更适用于人脑这种在结构与功能上存在复杂关系的数据[35]。Kim等[36]在静息态功能连接矩阵上应用深度神经网络区分精神分裂症患者和正常对照,错误率为14.2%,显著低于采用SVM的22.3%。但上述研究仍是在传统特征提取的基础上,未能全面发挥深度学习自动特征学习的优势。目前直接将全脑图像作为输入的精神疾病深度学习研究还比较鲜见[37]。深度学习应用于脑影像还存在诸多难点和挑战,深度网络中有数百万个参数需要在训练中确定,且人脑本身变异性较大且正常人与患者间的差异较小,因此需要大量的训练数据,目前还没有如此数量级的数据库可以满足。另外,不同于二维的自然图像,脑影像往往是三维甚至四维且病变部位不明,因此理想的情况是将数据整体输入,但对计算硬件资源的要求会显著增加。目前还没有研究对训练数据量、模型性能以及计算资源之间关系和需求进行系统研究,但随着深度学习算法的发展、精神疾病数据库的建立以及计算机硬件的发展,该方向将是精神影像最具潜力的方向。
综上所述,虽然机器学习技术已经在精神影像各个方面展开了大量探索,但仍处于比较初级的阶段,大多数应用仍是简单的二分类或者三分类问题。而在精神疾病的临床实践中,临床医师往往面对更为复杂的情况。因此在未来相当长的时间内,机器学习无法替代医师在诊断及治疗决策中的地位,但精神影像结合机器学习将会逐步发展为精神疾病领域的检查方法,为临床医师提供重要的辅助诊断依据,提高临床诊断、治疗水平及效率。
尽管存在诸多挑战,但随着机器学习算法和计算机硬件的飞速发展、大样本标准医学影像数据库的建立以及多中心数据共享机制的形成,使得研究更为复杂的临床问题、获得泛化性能更好的模型成为可能。精神影像和机器学习的结合发展将是大势所趋,未来必将成为精神疾病临床诊疗中的重要工具。
参考文献(略)
预览时标签不可点收录于话题#个上一篇下一篇