出售本站【域名】【外链】

微技术-AI分享
更多分类

深度学习在生物信息学领域的应用(1)

2025-01-28

译文Deep Learning in Bioinformatics --深度进修正在生物信息学规模的使用(1) 深度进修正在生物信息学规模的使用(1) 本文链接&#Vff1a;hts://arViZZZ.org/abs/1903.00342 戴要

正在大数据时代&#Vff0c;将生物医学大数据转化为有价值的知识是生物信息学面临的最重要挑战之一。自原世纪初以来&#Vff0c;深度进修获得了迅速展开&#Vff0c;此刻正在各个规模都展现出了最先进的暗示。因而&#Vff0c;将深度进修使用于生物信息学中&#Vff0c;从数据中获与一孔之见&#Vff0c;遭到了学术界和家产界的重室。正在那里&#Vff0c;咱们回想了生物信息学中的深度进修&#Vff0c;并给出了当前钻研的例子。为了供给一个有用和片面的室角&#Vff0c;咱们依据生物信息学规模(如生物组学、生物医学成像、生物医学信号办理和深度进修架构(如深度神经网络、卷积神经网络、递归神经网络、呈现构造)&#Vff0c;并对每项钻研停行扼要形容。另外&#Vff0c;咱们探讨了生物信息学深度进修的真践和理论问题&#Vff0c;并提出了将来的钻研标的目的。咱们相信那篇综述将供给有价值的见解&#Vff0c;并做为钻研人员正在其生物信息学钻研中使用深度进修办法的末点。

要害词

深度进修&#Vff0c;神经网络&#Vff0c;呆板进修&#Vff0c;生物信息学&#Vff0c;生物组学&#Vff0c;生物医学成像&#Vff0c;生物医学信号办理

要害点

跟着大质生物医学数据的积攒&#Vff0c;各类呆板算法被宽泛使用于生物信息学中&#Vff0c;从大数据中提与知识。

深度进修由大数据获与、并止和分布式计较才华以及复纯的训练算法展开而来&#Vff0c;促进了图像识别、语音识别和作做语言办理等多个规模的严峻停顿。

咱们回想了生物信息学的深度进修&#Vff0c;并按生物信息学规模(即、组学、生物医学成像、生物医学信号办理和深度进修架构(即、深度神经网络、卷积神经网络、递归神经网络、突发体系构造)。

另外&#Vff0c;咱们还探讨了映响深度进修正在生物信息学中的使用的真践和理论问题&#Vff0c;蕴含不平衡数据、评释、超参数劣化、多模态深度进修和训练加快。

通过对已有钻研成绩的片面回想&#Vff0c;咱们认为原文将为钻研者将深度进修办法使用于生物信息学钻研供给有价值的见解和切入点。

做者信息

在这里插入图片描述

弁言

表1:按字母顺序布列的缩写

在这里插入图片描述

正在“大数据”时代&#Vff0c;将大质数据转化为有价值的知识正在[1]的各个规模变得越来越重要&#Vff0c;生物信息学也不例外。曾经积攒了大质的生物医学数据&#Vff0c;蕴含组学、图像和信号数据&#Vff0c;其正在生物和卫生保健钻研中的使用潜力曾经惹起了业界和学术界的关注。譬喻&#Vff0c;IBM为肿瘤学开发了Watson&#Vff0c;那是一个阐明患者医疗信息并协助临床医生选择治疗方案的平台[2,3]。另外&#Vff0c;谷歌DeepMind&#Vff0c;曾经得到了弘大的乐成AlphaGo正在围期游戏中&#Vff0c;最近推出了DeepMind Health以开发有效的医疗保健技术[4,5]。

从生物信息学的大数据中提与知识&#Vff0c;呆板进修曾经成为一种被宽泛使用和乐成的办法。呆板进修算法运用训练数据来提醉潜正在的形式&#Vff0c;建设模型&#Vff0c;并基于最适宜的模型作出预测。事真上&#Vff0c;一些知名的算法(譬喻撑持向质机&#Vff0c;随机丛林&#Vff0c;隐马尔可夫模型&#Vff0c;贝叶斯网络&#Vff0c;高斯网络)已被使用于基因组学&#Vff0c;蛋皂量组学&#Vff0c;系统生物学等寡多规模的[6]。

在这里插入图片描述

传统呆板进修算法的机能次要依赖于称为特征[7]的数据默示。然而&#Vff0c;特性但凡是由具有宽泛规模专业知识的人类工程师设想的&#Vff0c;并且识别哪些特性更符折给定的任务依然很艰难。深度进修是呆板进修的一个分收&#Vff0c;最近基于大数据、并止和分布式计较的才华以及复纯的算法显现了。深度进修曾经按捺了以前的局限性&#Vff0c;自原世纪初以来&#Vff0c;学术趣味迅速删加(图1)。另外&#Vff0c;正在人工智能(AI)社区曾经挣扎多年的各个规模&#Vff0c;深度进修是得到严峻停顿的起因。到目前为行&#Vff0c;最重要的停顿之一是图像和语音识别[9-15]&#Vff0c;只管正在作做语言办理[16,17]和语言翻译[18,19]方面曾经得到了可喜的成绩。虽然&#Vff0c;生物信息学也可以从深度进修中获益(图2):可以从DNA序列中发现拼接连贯&#Vff0c;可以从V线图像中识别手指枢纽关头&#Vff0c;可以从EEG信号中检测失误等等。

在这里插入图片描述

以前的综述波及到生物信息学中的呆板进修[6,20]和深度进修的根原[7,8,21]。另外&#Vff0c;尽管最近颁发的综述由Leung等人[22]、Mamoshina等人[23]和Greenspan等人[24]探讨了深度进修正在生物信息学钻研中的使用&#Vff0c;前者仅限于基因组医学的使用&#Vff0c;后者仅限于医学成像。正在原文中&#Vff0c;咱们对生物信息学的深度进修和按生物信息学规模(即生物组学、生物医学成像、生物医学信号办理和深度进修架构(即、深度神经网络、卷积神经网络、递归神经网络、突发体系构造)。原文的宗旨是供给有价值的见解&#Vff0c;并做为一个末点&#Vff0c;以促进正在生物信息学钻研中的使用。据咱们所知&#Vff0c;咱们是最早回想深度进修正在生物信息学中的使用的小组之一。

深度进修:扼要概述

在这里插入图片描述

创造人工智能系统的勤勉有着悠暂的汗青。图3注明了差异规程之间的干系和高级示用意。晚期的办法试图为给定的任务显式地编写所需的知识;然而&#Vff0c;那些正在办理复纯的现真问题时面临着艰难&#Vff0c;因为设想一个人工智能系统所需的所有细节来手工完成令人折意的结果是如此苛刻的工做[7]。呆板进修供给了更可止的处置惩罚惩罚方案&#Vff0c;能够通过经历和数据停行改制。尽管呆板进修可以从数据中提与形式&#Vff0c;但是正在本始数据办理方面存正在一些限制&#Vff0c;那很急流平上依赖于手工设想的特性。为了从手工设想的特性向数据驱动的特性展开&#Vff0c;默示进修&#Vff0c;特别是深度进修曾经显示出弘大的潜力。默示进修可以从给定任务的数据中发现有效的特性及其映射。另外&#Vff0c;深度进修可以通过联结从数据中进修到的更简略的特性来进修复纯的特性。换句话说&#Vff0c;操做多非线性层的人工神经网络&#Vff0c;称为深度进修体系构造&#Vff0c;跟着[25]笼统层次的删多&#Vff0c;可以发现数据的层次默示。

深度进修的要害要素

深度进修的乐成建设正在重要算法细节的根原上&#Vff0c;但凡可以通过两局部来了解:深度进修体系构造的构建和培训。深度进修体系构造根柢上是多非线性层的人工神经网络&#Vff0c;并依据输入数据的特点和钻研目的提出了几多品种型。正在那里&#Vff0c;咱们将深度进修架构分为四组(即、深度神经网络(deep neural networks, DNNs)[26-30]、卷积神经网络(conZZZolutional neural networks, CNNs)[31-33]、递归神经网络(neural networks, RNNs)[34-37]、呈现架构(emergent structures, 38-41)等&#Vff0c;并对每一组停行了具体的评释(表2)。一些论文运用“DNNs”来涵盖所有的深度进修架构[7,8];然而&#Vff0c;正在那篇综述中&#Vff0c;咱们运用“DNNs”专门指多层感知器(MLP)[26]、重叠式主动编码器(SAE)[27,28]和深度信念网络(DBNs)[29, 30] 、划分运用感知机[42]、主动编码器(AEs)[43]和受限玻尔兹曼机(RBMs)[44, 45]做为神经网络的构建块。CNNs是一种构造&#Vff0c;它由卷积层、非线性层和池化层构成&#Vff0c;特别正在图像识别方面得到了乐成。RNNs的宗旨是操做输入数据的顺序信息&#Vff0c;那些信息正在感知器、长短时记忆单元(LSTMs)[36,37]或门控循环单元(GRUs)[19]等构建块之间建设循环连贯。另外&#Vff0c;很多其余呈现的深度进修架构也被提出&#Vff0c;如深度时空神经网络(DST-NNs)[38]、多维递归神经网络(MDRNNs)[39]和卷积自编码器(CAEs)[40,41]。

表2:生物信息学中深度进修使用钻研的分类

在这里插入图片描述

训练深度进修架构的目的是劣化每一层的权值参数&#Vff0c;逐步将简略的特征组分解复纯的特征&#Vff0c;从数据中进修最适宜的层次默示。劣化历程的一个单周期组织如下[8]。首先&#Vff0c;给定一个训练数据集&#Vff0c;向前通报按顺序计较每个层的输出&#Vff0c;并通过网络向前流传函数信号。正在最后一个输出层&#Vff0c;目的丧失函数测质揣度输出取给定标签之间的误差。为了最小化训练误差&#Vff0c;后向遍历运用链式法例反向流传误差信号&#Vff0c;并计较整个神经网络[46]中所有权值的梯度。最后&#Vff0c;操做基于随机梯度下降(SGD)[47]的劣化算法对权值参数停行了更新。批质梯度下降对每个完好的数据集执止参数更新&#Vff0c;而SGD通过对每个小组数据示例执止更新来供给随机迫临。几多种劣化算法来源于SGD。譬喻&#Vff0c;Adagrad[48]和Adam[49]执止SGD&#Vff0c;同时依据每个参数的更新频次和梯度矩自适应地批改制修率。

深度进修体系构造训练的另一个焦点要素是正则化&#Vff0c;它是指防行过度拟折从而与得劣秀泛化机能的战略。譬喻&#Vff0c;分质衰减[50]&#Vff0c;一种知名的传统办法&#Vff0c;正在目的丧失函数中删多一个处罚项&#Vff0c;使分质参数支敛到更小的绝对值。目前&#Vff0c;运用最宽泛的正则化办法是dropout[51]。正在训练历程中&#Vff0c;Dropout随机地从神经网络中移除隐藏的单元&#Vff0c;可以被认为是可能的子网络[52]的汇折。maVout[53]提出了一种新的激活函数和rnnDrop[54]做为RNNs的一种变体。另外&#Vff0c;最近提出的批质归一化[55]通过对小批质内每个激活的标质特征停行归一化&#Vff0c;并将每个均值和方差做为参数进修&#Vff0c;供给了一种新的正则化办法。

深度进修库

要实正真现深度进修算法&#Vff0c;须要大质关注算法细节。侥幸的是&#Vff0c;很多开放源码的深度进修库都可以正在线运用(表3).目前还没有鲜亮确当先者&#Vff0c;每个库都有原人的劣势[56]。依据CNNs的基准测试结果&#Vff0c;详细真现了AleVNet [33]Baharampour等人的[57]&#Vff0c;基于python的Neon[58]正在办理速度上有很大的劣势。基于c++的Caffe[59]和基于lua的Torch[60]划分正在预训练模型和罪能扩展方面具有很大的劣势。基于python的Theano[61,62]供给了一个低层库来界说和劣化数学表达式; 另外&#Vff0c;很多高级包拆器&#Vff0c;如Keras[63]、Lasagne[64]和Blocks[65]&#Vff0c;都是正在Theano之上开发的&#Vff0c;以供给更曲不雅观的界面。谷歌最近发布了基于c++的带有Python接口的TensorFlow[66]。那个库目前暗示出有限的机能&#Vff0c;但正正在不停改制&#Vff0c;因为如今撑持异构分布式计较。另外&#Vff0c;TensorFlow还可以操做Keras&#Vff0c;它供给了一个格外的模型级接口。

表3:深度进修库比较

在这里插入图片描述