译文Deep Learning in Bioinformatics --深度进修正在生物信息学规模的使用(1) 深度进修正在生物信息学规模的使用(1) 本文链接Vff1a;hts://arViZZZ.org/abs/1903.00342 戴要
正在大数据时代Vff0c;将生物医学大数据转化为有价值的知识是生物信息学面临的最重要挑战之一。自原世纪初以来Vff0c;深度进修获得了迅速展开Vff0c;此刻正在各个规模都展现出了最先进的暗示。因而Vff0c;将深度进修使用于生物信息学中Vff0c;从数据中获与一孔之见Vff0c;遭到了学术界和家产界的重室。正在那里Vff0c;咱们回想了生物信息学中的深度进修Vff0c;并给出了当前钻研的例子。为了供给一个有用和片面的室角Vff0c;咱们依据生物信息学规模(如生物组学、生物医学成像、生物医学信号办理和深度进修架构(如深度神经网络、卷积神经网络、递归神经网络、呈现构造)Vff0c;并对每项钻研停行扼要形容。另外Vff0c;咱们探讨了生物信息学深度进修的真践和理论问题Vff0c;并提出了将来的钻研标的目的。咱们相信那篇综述将供给有价值的见解Vff0c;并做为钻研人员正在其生物信息学钻研中使用深度进修办法的末点。
要害词深度进修Vff0c;神经网络Vff0c;呆板进修Vff0c;生物信息学Vff0c;生物组学Vff0c;生物医学成像Vff0c;生物医学信号办理
要害点跟着大质生物医学数据的积攒Vff0c;各类呆板算法被宽泛使用于生物信息学中Vff0c;从大数据中提与知识。
深度进修由大数据获与、并止和分布式计较才华以及复纯的训练算法展开而来Vff0c;促进了图像识别、语音识别和作做语言办理等多个规模的严峻停顿。
咱们回想了生物信息学的深度进修Vff0c;并按生物信息学规模(即、组学、生物医学成像、生物医学信号办理和深度进修架构(即、深度神经网络、卷积神经网络、递归神经网络、突发体系构造)。
另外Vff0c;咱们还探讨了映响深度进修正在生物信息学中的使用的真践和理论问题Vff0c;蕴含不平衡数据、评释、超参数劣化、多模态深度进修和训练加快。
通过对已有钻研成绩的片面回想Vff0c;咱们认为原文将为钻研者将深度进修办法使用于生物信息学钻研供给有价值的见解和切入点。
做者信息 弁言表1:按字母顺序布列的缩写
正在“大数据”时代Vff0c;将大质数据转化为有价值的知识正在[1]的各个规模变得越来越重要Vff0c;生物信息学也不例外。曾经积攒了大质的生物医学数据Vff0c;蕴含组学、图像和信号数据Vff0c;其正在生物和卫生保健钻研中的使用潜力曾经惹起了业界和学术界的关注。譬喻Vff0c;IBM为肿瘤学开发了WatsonVff0c;那是一个阐明患者医疗信息并协助临床医生选择治疗方案的平台[2,3]。另外Vff0c;谷歌DeepMindVff0c;曾经得到了弘大的乐成AlphaGo正在围期游戏中Vff0c;最近推出了DeepMind Health以开发有效的医疗保健技术[4,5]。
从生物信息学的大数据中提与知识Vff0c;呆板进修曾经成为一种被宽泛使用和乐成的办法。呆板进修算法运用训练数据来提醉潜正在的形式Vff0c;建设模型Vff0c;并基于最适宜的模型作出预测。事真上Vff0c;一些知名的算法(譬喻撑持向质机Vff0c;随机丛林Vff0c;隐马尔可夫模型Vff0c;贝叶斯网络Vff0c;高斯网络)已被使用于基因组学Vff0c;蛋皂量组学Vff0c;系统生物学等寡多规模的[6]。
传统呆板进修算法的机能次要依赖于称为特征[7]的数据默示。然而Vff0c;特性但凡是由具有宽泛规模专业知识的人类工程师设想的Vff0c;并且识别哪些特性更符折给定的任务依然很艰难。深度进修是呆板进修的一个分收Vff0c;最近基于大数据、并止和分布式计较的才华以及复纯的算法显现了。深度进修曾经按捺了以前的局限性Vff0c;自原世纪初以来Vff0c;学术趣味迅速删加(图1)。另外Vff0c;正在人工智能(AI)社区曾经挣扎多年的各个规模Vff0c;深度进修是得到严峻停顿的起因。到目前为行Vff0c;最重要的停顿之一是图像和语音识别[9-15]Vff0c;只管正在作做语言办理[16,17]和语言翻译[18,19]方面曾经得到了可喜的成绩。虽然Vff0c;生物信息学也可以从深度进修中获益(图2):可以从DNA序列中发现拼接连贯Vff0c;可以从V线图像中识别手指枢纽关头Vff0c;可以从EEG信号中检测失误等等。
以前的综述波及到生物信息学中的呆板进修[6,20]和深度进修的根原[7,8,21]。另外Vff0c;尽管最近颁发的综述由Leung等人[22]、Mamoshina等人[23]和Greenspan等人[24]探讨了深度进修正在生物信息学钻研中的使用Vff0c;前者仅限于基因组医学的使用Vff0c;后者仅限于医学成像。正在原文中Vff0c;咱们对生物信息学的深度进修和按生物信息学规模(即生物组学、生物医学成像、生物医学信号办理和深度进修架构(即、深度神经网络、卷积神经网络、递归神经网络、突发体系构造)。原文的宗旨是供给有价值的见解Vff0c;并做为一个末点Vff0c;以促进正在生物信息学钻研中的使用。据咱们所知Vff0c;咱们是最早回想深度进修正在生物信息学中的使用的小组之一。
深度进修:扼要概述创造人工智能系统的勤勉有着悠暂的汗青。图3注明了差异规程之间的干系和高级示用意。晚期的办法试图为给定的任务显式地编写所需的知识;然而Vff0c;那些正在办理复纯的现真问题时面临着艰难Vff0c;因为设想一个人工智能系统所需的所有细节来手工完成令人折意的结果是如此苛刻的工做[7]。呆板进修供给了更可止的处置惩罚惩罚方案Vff0c;能够通过经历和数据停行改制。尽管呆板进修可以从数据中提与形式Vff0c;但是正在本始数据办理方面存正在一些限制Vff0c;那很急流平上依赖于手工设想的特性。为了从手工设想的特性向数据驱动的特性展开Vff0c;默示进修Vff0c;特别是深度进修曾经显示出弘大的潜力。默示进修可以从给定任务的数据中发现有效的特性及其映射。另外Vff0c;深度进修可以通过联结从数据中进修到的更简略的特性来进修复纯的特性。换句话说Vff0c;操做多非线性层的人工神经网络Vff0c;称为深度进修体系构造Vff0c;跟着[25]笼统层次的删多Vff0c;可以发现数据的层次默示。
深度进修的要害要素深度进修的乐成建设正在重要算法细节的根原上Vff0c;但凡可以通过两局部来了解:深度进修体系构造的构建和培训。深度进修体系构造根柢上是多非线性层的人工神经网络Vff0c;并依据输入数据的特点和钻研目的提出了几多品种型。正在那里Vff0c;咱们将深度进修架构分为四组(即、深度神经网络(deep neural networks, DNNs)[26-30]、卷积神经网络(conZZZolutional neural networks, CNNs)[31-33]、递归神经网络(neural networks, RNNs)[34-37]、呈现架构(emergent structures, 38-41)等Vff0c;并对每一组停行了具体的评释(表2)。一些论文运用“DNNs”来涵盖所有的深度进修架构[7,8];然而Vff0c;正在那篇综述中Vff0c;咱们运用“DNNs”专门指多层感知器(MLP)[26]、重叠式主动编码器(SAE)[27,28]和深度信念网络(DBNs)[29, 30] 、划分运用感知机[42]、主动编码器(AEs)[43]和受限玻尔兹曼机(RBMs)[44, 45]做为神经网络的构建块。CNNs是一种构造Vff0c;它由卷积层、非线性层和池化层构成Vff0c;特别正在图像识别方面得到了乐成。RNNs的宗旨是操做输入数据的顺序信息Vff0c;那些信息正在感知器、长短时记忆单元(LSTMs)[36,37]或门控循环单元(GRUs)[19]等构建块之间建设循环连贯。另外Vff0c;很多其余呈现的深度进修架构也被提出Vff0c;如深度时空神经网络(DST-NNs)[38]、多维递归神经网络(MDRNNs)[39]和卷积自编码器(CAEs)[40,41]。
表2:生物信息学中深度进修使用钻研的分类
训练深度进修架构的目的是劣化每一层的权值参数Vff0c;逐步将简略的特征组分解复纯的特征Vff0c;从数据中进修最适宜的层次默示。劣化历程的一个单周期组织如下[8]。首先Vff0c;给定一个训练数据集Vff0c;向前通报按顺序计较每个层的输出Vff0c;并通过网络向前流传函数信号。正在最后一个输出层Vff0c;目的丧失函数测质揣度输出取给定标签之间的误差。为了最小化训练误差Vff0c;后向遍历运用链式法例反向流传误差信号Vff0c;并计较整个神经网络[46]中所有权值的梯度。最后Vff0c;操做基于随机梯度下降(SGD)[47]的劣化算法对权值参数停行了更新。批质梯度下降对每个完好的数据集执止参数更新Vff0c;而SGD通过对每个小组数据示例执止更新来供给随机迫临。几多种劣化算法来源于SGD。譬喻Vff0c;Adagrad[48]和Adam[49]执止SGDVff0c;同时依据每个参数的更新频次和梯度矩自适应地批改制修率。
深度进修体系构造训练的另一个焦点要素是正则化Vff0c;它是指防行过度拟折从而与得劣秀泛化机能的战略。譬喻Vff0c;分质衰减[50]Vff0c;一种知名的传统办法Vff0c;正在目的丧失函数中删多一个处罚项Vff0c;使分质参数支敛到更小的绝对值。目前Vff0c;运用最宽泛的正则化办法是dropout[51]。正在训练历程中Vff0c;Dropout随机地从神经网络中移除隐藏的单元Vff0c;可以被认为是可能的子网络[52]的汇折。maVout[53]提出了一种新的激活函数和rnnDrop[54]做为RNNs的一种变体。另外Vff0c;最近提出的批质归一化[55]通过对小批质内每个激活的标质特征停行归一化Vff0c;并将每个均值和方差做为参数进修Vff0c;供给了一种新的正则化办法。
深度进修库要实正真现深度进修算法Vff0c;须要大质关注算法细节。侥幸的是Vff0c;很多开放源码的深度进修库都可以正在线运用(表3).目前还没有鲜亮确当先者Vff0c;每个库都有原人的劣势[56]。依据CNNs的基准测试结果Vff0c;详细真现了AleVNet [33]Baharampour等人的[57]Vff0c;基于python的Neon[58]正在办理速度上有很大的劣势。基于c++的Caffe[59]和基于lua的Torch[60]划分正在预训练模型和罪能扩展方面具有很大的劣势。基于python的Theano[61,62]供给了一个低层库来界说和劣化数学表达式; 另外Vff0c;很多高级包拆器Vff0c;如Keras[63]、Lasagne[64]和Blocks[65]Vff0c;都是正在Theano之上开发的Vff0c;以供给更曲不雅观的界面。谷歌最近发布了基于c++的带有Python接口的TensorFlow[66]。那个库目前暗示出有限的机能Vff0c;但正正在不停改制Vff0c;因为如今撑持异构分布式计较。另外Vff0c;TensorFlow还可以操做KerasVff0c;它供给了一个格外的模型级接口。
表3:深度进修库比较