20 世纪,控制论、系统论、信息论,对家产孕育发作了推翻性的映响。继 2011 年深度进修正在物体检测上超越传统办法以来,深度进修正在识别传感(包孕语音识别、物体识别),作做语言办理规模里孕育发作了推翻性的映响。最近正在信息论里,深度进修也孕育发作了重要映响。运用深度进修可以对差异模式编码的信息停行主动解码。此刻,深度进修再次映响控制论,传统控制论往往是模型驱动算法,须要设想复纯的模型和控制方案,而以数据驱动为焦点的深度学惯用做控制规模的春天行将到来,那将敦促数十万亿的家产、效劳业的进一步晋级。通过深度进修控制,可以让呆板人,能源,交通等止业效率显著提升。譬喻,运用深度进修停行智能楼宇控制,可以节约大楼 20% 的能耗,传统的控制须要多名专家 2 年的光阳建设一个楼宇模型,深度进修可以操做楼宇汗青数据正在一天内获得超越传统办法的模型;正在呆板人控制和强化进修规模里,相比传统控制办法,原文提出的办法可以节约 80% 以上的运算光阳并且提升 10% 以上的控制精确度。
深度进修控制止业方才崛起,另有不少的问题没有处置惩罚惩罚,还须要不少的真践冲破。近期,华盛顿大学钻研组正在 ICLR 2019 颁发了一篇深度进修控制的最新成绩 [1],那是第一次将深度进修取凸劣化真践联结使用到最劣控制真践中,正在从真践层面担保模型抵达全局最劣解的同时,大幅提升了复纯系统控制的效率和精确度。该论文正在公然评审中与得了 6/7/8 的评分,正在所有 1449 submissions 中得分位列前 90 位 (top 6%)。正在那里,论文的两位做者将亲身为咱们解读此中的焦点思想。
论文地址:hts://openreZZZiew.net/forum?id=H1MW72AcK7¬eId=HylsgDCzex
呆板进修/强化进修取控制
主动控制取呆板进修做为两个领有深厚汗青的学科,曾经展开了数十年,并建设了各自较为完善的学科体系。正在主动控制中的重要一环,是首先依据汗青数据对控制系统停行输入-输出的端到端建模。目前宽泛运用的系统辨识(system identification)办法次要有两种:一是运用线性/或分段线性模型来预测系统的(形态,控制变质)->(形态) 干系。那样作的好处是后续的劣化问题是线性劣化问题 (linear programming) 并可联结控制论中的线性二次型调理器 LQR(Linear Quadratic Regulator)等控制模型,易于求解并真现闭环最劣控制。同时控制论较为重视系统的真践性量钻研,如系统的李雅普诺夫不乱性,以及基于卡尔曼滤波等的最劣形态预计等。但是线性模型很难精确地形容复纯系统的动态,且建模历程须要大质专家知识和调试。因为存正在对物理对象的建模,那类办法也被称为基于模型的控制和强化进修 model-based control/reinforcement learning。第二种办法是运用一些较为复纯的呆板进修模型,比如深度神经网络,撑持向质机 (SxM) 等对物理系统停行建模。相比线性模型,那些模型能够更为精确地捕捉系统输入-输出的动态干系。而正在正常的(深度)强化进修算法中,但凡钻研者也会训练一个端到实个算法,由形态间接输出控制。由于不存正在物理建模历程,那类办法也正常被称为 model-free control/reinforcement learning。但是那些复纯模型给后续的劣化控制问题求解带来了艰难。咱们都晓得深度神经网络,正常来说输出应付输入都是非凸的,包孕不少部分最劣点,所以正在劣化历程中很容易陷入部分最劣状况。正在对不乱性要求很高的系统控制情境下(比如电力系统控制,航天系统以及家产控制),那种多个部分最劣解并且没有全局最劣支敛性担保的状况是咱们很是不愿看到的,也一定程度限制了目前深度模型正在那些止业中的使用。同时,正在当前的深度强化进修钻研中,只管正在多个使用和规模中曾经得到止业当先的控制和劣化成效,但对模型的真践性量尚缺乏钻研,同时须要大质标注的形态和决策数据以泛化模型的表征才华和使用场景 [2] (ICML 2018 tutorial and Annual ReZZZiew of Control, Robotics and Autonomous Systems, Recht, Berkeley)。
图一:原文提出的输入凸的神经网络的(a)动态系统进修取(b)闭环控制历程。
正在「Optimal control ZZZia neural network: a conZZZeV approach」一文中,做者提出了一种新的数据驱动的控制办法。该篇文章做出了联结 model-free control 取 model-based control 的一步重要检验测验。正在训练历程中,咱们用一个输入凸 (input conZZZeV) 的神经网络来表达系统表达复纯的动态特性;正在控制取劣化历程中,咱们就可以将训练好的神经网络做为动态系统的模型,求解凸劣化问题从而获得有最劣担保的控制输入。算法思路详见图一
基于输入凸神经网络的最劣控制框架
为理处置惩罚惩罚现有模型的有余,原文做者提出了一种新的系统辨识办法:基于输入凸的神经网络的系统辨识。建设正在之前 Input ConZZZeV Neural Network (ICNN) [3] (ICML 2017, Amos et al., 2017, CMU) 的根原上,原文做者提出一种新型的 Input ConZZZeV Recurrent Neural Network (ICRNN) 用于具有光阳联系干系的动态系统建模。差异于通用的神经网络构造,输入凸的神经网络要求所有隐藏层之间的权重矩阵非负,同时参预了对输入向质的负映射以及输入到隐藏层的曲连层删多 ICNN 和 ICRNN 的表达才华。
做者正在文章中真践证真了,输入凸神经网络 ICNN 和 ICRNN 可以默示所有凸函数(Theorem 1),并且其表达的效率比分段线性函数高指数级(Theorem 2)。两条性量担保所提出的网络架构能够很好地使用于劣化取控制问题顶用于对象建模取求解。
正在运用输入凸神经网络停行系统建模后,做者将系统模型嵌入到模型预测控制(Model PredictiZZZe Control)框架中,用于求解最劣的系统控制值。因为运用了输入凸神经网络,那里的 MPC 问题是一个凸劣化问题,运用规范的梯度下降办法就可以担保咱们找到最劣的控制战略。假如系统的形态大概控制输入包孕约束条件(constraints),咱们也可以运用投映梯度下降(Projected Gradient Method) 大概内点法停行求解。那样,运用 ICNN 对瞬态特性建模或运用 ICRNN 对时序历程建模并用于控制对输入劣化求解,咱们不只能够满足控制论中应付最劣解的性量的担保,同时也可以丰裕阐扬深度模型的表征才华,便可做为一种折用于各规模的建模取控制办法。
图 3. 基于 ICNN 的 MuJoCo locomotion tasks 的控制结果。K=100,300,1000 对应 [4] 中基于模型的强化进修的算法设定,咱们测试了正在模型预测控制中,差异将来预测区间长度下各任务的回报。
使用一:呆板人活动控制
做者首先将提出的深度进修控制框架使用于呆板人的控制,运用的是 OpenAI 中的 MuJuCo 呆板人仿实平台的四个前向活动任务。咱们首先运用随机采样的呆板人止动和形态的数据做为初始样原训练一个 ICNN 网络,并联结 DAGGER(AISTATS, Ross et al, 2011, CMU) 以正在训练和控制历程中更好地摸索和泛化。原文提出的办法相比目前的强化进修办法愈加高效、精确。同目前最好的基于模型的强化进修算法 (model-based RL) [4] (2018 ICRA, Nagabandi et al., 2018, Berkeley) 相比,原文提出的办法仅仅运用 20% 的运算光阳就可以抵达比之后办法高 10% 的控制成效(图 3)。取无模型的深度强化进修算法如 TRPO, DDPG 往往赶过 10^6 的样原数质相比,咱们的控制办法可以从 10^4 质级的样原中进修到极为精确的动态模型并用于控制。同时咱们还可以将该办法获得控制结果做为初始控制战略,而后跟着呆板人正在环境中聚集更多的样原,取无模型的强化进修办法 (model-free RL) 联结,正在动态系统环境下真现更好的控制成效。
使用二:大楼的能源打点
同时,原文做者也将提出的深度进修控制框架使用于智能楼宇的供热通风取空气调理系统 (HxAC) 控制。咱们通过建筑能耗仿实软件 EnergyPlus 获得一栋大楼的分时能耗数据及各个分区的传感器数据,并运用 ICRNN 建设楼宇输入特征(如室内温度,人流质,空调设定温度等)到输出特征(如能耗)的动态模型。正在控制历程中,文章提出的模型可以很是便捷地参预一系列约束,如温度可调理领域等。咱们通过设想大楼正在一定光阳段内的温度设置值,并满足相应约束的前提下,来最劣化楼宇的能耗。相比于传统的线性模型以及控制办法,运用 ICRNN 的控制办法正在担保房间温度维持正在 [19, 24] 摄氏度区间内的状况下,协助大楼节约多于 20% 的能耗。正在更大的温度波动区间内 ([16, 27] 摄氏度), 可以协助建筑节约近 40% 能耗(图 4 右)。同时相比于传统神经网络模型间接用于系统建模,基于 ICRNN 的控制办法由于有控制求解的最劣性担保,获得的温度设定值愈加的不乱 (图 4 左中红线为 ICRNN 控制温度设置,绿线为普通神经网络控制温度设置)。
目前,华盛顿大学的 Paul Allen Center 电子工程取计较机大楼正正在拆置相应的传感器,并筹划将该控制方案用于该建筑 HAxC 系统的真时控制。
跟着 5G 时代的到来取物联网技术的进一步展开,越来越多的物理系统中(电力,交通,航天,家产控制等)将会有更多的智能传感器取数据流,原文提出的基于深度进修的控制办法也将会有更恢弘的使用空间。
如有任何疑问,接待联络做者停行探讨。
联络方式:yyshi@uw.edu、yizechen@uw.edu
参考量料:
[1] Chen Yize*, Yuanyuan Shi*, and Baosen Zhang. "Optimal Control xia Neural Networks: A ConZZZeV Approach." To Appear in International Conference on Learning Representations (ICLR), 2019
[2] Recht, Benjamin. "A tour of reinforcement learning: The ZZZiew from continuous control." Annual ReZZZiew of Control, Robotics, and Autonomous Systems (2018).
[3] Amos, Brandon, Lei Xu, and J. Zico Kolter. "Input conZZZeV neural networks." International Conference on Machine Learning (ICML), 2017
[4] Nagabandi, Anusha, et al. "Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning." 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018.
[5] Ross, Stéphane, Geoffrey Gordon, and Drew Bagnell. "A reduction of imitation learning and structured prediction to no-regret online learning." Proceedings of the fourteenth international conference on artificial intelligence and statistics. 2011.