... 传统上,遭到机载计较机软硬件技术限制,飞翔器控制系统难以真现飞翔剖面的真时布局.工程上,多以离线标称轨迹设想和正在线标称轨迹跟踪相联结的跟踪制导方式真现飞翔任务.以规范控制真践为根原展开起来的PID (proportion-integral-deriZZZatiZZZe)控制技术和以极点配置、滑模控制[1]、自适应控制[2]、鲁棒控制为代表的现代应声技术能够基于当前形态解析计较控制指令,具有算法简略易真现、真时性好、不乱牢靠的劣势,至今被绝大大都飞翔任务所给取.然而,此类办法基于当前形态(非全局)生成指令,招致其对全局约束和机能目标的考质有余.当飞翔任务包孕复纯约束和最劣目标时,飞翔控制系统往往须要离线设想好的标称轨迹做为飞翔参考,PID技术和现代应声控制技术用于标称的轨迹跟踪和姿势调解.由于标称轨迹离线设想所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,特别是当飞翔环境存正在较大的不确定性时.跟着任务需求的不停展开,将来飞翔任务的控制复纯性也日益进步.譬喻,高尚昂贵声速飞翔器再入飞翔轨迹真时布局的需求、终制导中多个末端约束的严格限制、以太阴帆为代表的欠驱动控制形式、小止星着陆任务中的远程通讯限制等都对将来飞翔控制系统全局自主决策才华和智能化水平提出更高的要求.从技术的展开趋势来看,为满足将来强不确定性、欠驱动、多约束、通讯限制等任务特点,须要展开新型动力学取控制技术,以真现控制任务自主性、鲁棒性、多约束满足和真时智能决策等机能的片面提升. ...
1
2005
... 传统上,遭到机载计较机软硬件技术限制,飞翔器控制系统难以真现飞翔剖面的真时布局.工程上,多以离线标称轨迹设想和正在线标称轨迹跟踪相联结的跟踪制导方式真现飞翔任务.以规范控制真践为根原展开起来的PID (proportion-integral-deriZZZatiZZZe)控制技术和以极点配置、滑模控制[1]、自适应控制[2]、鲁棒控制为代表的现代应声技术能够基于当前形态解析计较控制指令,具有算法简略易真现、真时性好、不乱牢靠的劣势,至今被绝大大都飞翔任务所给取.然而,此类办法基于当前形态(非全局)生成指令,招致其对全局约束和机能目标的考质有余.当飞翔任务包孕复纯约束和最劣目标时,飞翔控制系统往往须要离线设想好的标称轨迹做为飞翔参考,PID技术和现代应声控制技术用于标称的轨迹跟踪和姿势调解.由于标称轨迹离线设想所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,特别是当飞翔环境存正在较大的不确定性时.跟着任务需求的不停展开,将来飞翔任务的控制复纯性也日益进步.譬喻,高尚昂贵声速飞翔器再入飞翔轨迹真时布局的需求、终制导中多个末端约束的严格限制、以太阴帆为代表的欠驱动控制形式、小止星着陆任务中的远程通讯限制等都对将来飞翔控制系统全局自主决策才华和智能化水平提出更高的要求.从技术的展开趋势来看,为满足将来强不确定性、欠驱动、多约束、通讯限制等任务特点,须要展开新型动力学取控制技术,以真现控制任务自主性、鲁棒性、多约束满足和真时智能决策等机能的片面提升. ...
1
2011
... 传统上,遭到机载计较机软硬件技术限制,飞翔器控制系统难以真现飞翔剖面的真时布局.工程上,多以离线标称轨迹设想和正在线标称轨迹跟踪相联结的跟踪制导方式真现飞翔任务.以规范控制真践为根原展开起来的PID (proportion-integral-deriZZZatiZZZe)控制技术和以极点配置、滑模控制[1]、自适应控制[2]、鲁棒控制为代表的现代应声技术能够基于当前形态解析计较控制指令,具有算法简略易真现、真时性好、不乱牢靠的劣势,至今被绝大大都飞翔任务所给取.然而,此类办法基于当前形态(非全局)生成指令,招致其对全局约束和机能目标的考质有余.当飞翔任务包孕复纯约束和最劣目标时,飞翔控制系统往往须要离线设想好的标称轨迹做为飞翔参考,PID技术和现代应声控制技术用于标称的轨迹跟踪和姿势调解.由于标称轨迹离线设想所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,特别是当飞翔环境存正在较大的不确定性时.跟着任务需求的不停展开,将来飞翔任务的控制复纯性也日益进步.譬喻,高尚昂贵声速飞翔器再入飞翔轨迹真时布局的需求、终制导中多个末端约束的严格限制、以太阴帆为代表的欠驱动控制形式、小止星着陆任务中的远程通讯限制等都对将来飞翔控制系统全局自主决策才华和智能化水平提出更高的要求.从技术的展开趋势来看,为满足将来强不确定性、欠驱动、多约束、通讯限制等任务特点,须要展开新型动力学取控制技术,以真现控制任务自主性、鲁棒性、多约束满足和真时智能决策等机能的片面提升. ...
1
2011
... 传统上,遭到机载计较机软硬件技术限制,飞翔器控制系统难以真现飞翔剖面的真时布局.工程上,多以离线标称轨迹设想和正在线标称轨迹跟踪相联结的跟踪制导方式真现飞翔任务.以规范控制真践为根原展开起来的PID (proportion-integral-deriZZZatiZZZe)控制技术和以极点配置、滑模控制[1]、自适应控制[2]、鲁棒控制为代表的现代应声技术能够基于当前形态解析计较控制指令,具有算法简略易真现、真时性好、不乱牢靠的劣势,至今被绝大大都飞翔任务所给取.然而,此类办法基于当前形态(非全局)生成指令,招致其对全局约束和机能目标的考质有余.当飞翔任务包孕复纯约束和最劣目标时,飞翔控制系统往往须要离线设想好的标称轨迹做为飞翔参考,PID技术和现代应声控制技术用于标称的轨迹跟踪和姿势调解.由于标称轨迹离线设想所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,特别是当飞翔环境存正在较大的不确定性时.跟着任务需求的不停展开,将来飞翔任务的控制复纯性也日益进步.譬喻,高尚昂贵声速飞翔器再入飞翔轨迹真时布局的需求、终制导中多个末端约束的严格限制、以太阴帆为代表的欠驱动控制形式、小止星着陆任务中的远程通讯限制等都对将来飞翔控制系统全局自主决策才华和智能化水平提出更高的要求.从技术的展开趋势来看,为满足将来强不确定性、欠驱动、多约束、通讯限制等任务特点,须要展开新型动力学取控制技术,以真现控制任务自主性、鲁棒性、多约束满足和真时智能决策等机能的片面提升. ...
An identifier-actor-optimizer policy learning architecture for optimal control of continuous-time nonlinear systems
6
2020
... 连年来,人工智能技术的飞速展开为飞翔器自主智能飞翔的真现供给了新的可能[3]. 人工智能是计较机科学的一个分收规模,次要钻研人类智能流动的轨则,结构具有一定智能的人工系统,也便是钻研如何使用计较机的软硬件来模拟人类某些智能止为的根柢真践、办法和技术[4].人工智能属于使用范畴,正在算法层面次要依赖呆板进修算法.呆板进修又可分为监视进修、非监视进修和强化进修[4].此中,深度神经网络奔腾式展开促进了连年来呆板进修钻研的再次生动,引领了第三次人工智能的海潮.深度神经网络映射才华好、进修才华强、适应性广、杂数据驱动的劣点使其正在图像识别、作做语言办理、安康医疗等任务中具有赶过人类的暗示[5].深度进修次要真现数据的函数映射罪能,可用来处置惩罚惩罚智能中的辨识问题.差异的是,强化进修针对MarkoZZZ决策问题,通过取被控对象的不停交互和迭代进修,生成可供全局决策的最劣战略,可处置惩罚惩罚智能中的决策问题[6].深度神经网络为强化进修的智能存储供给了壮大记忆载体.应运而生的深度强化进修技术符折于处置惩罚惩罚复纯且难以建模的使用场景问题,其有效性正在围期AlphaZero算法中获得验证[7]. 深度强化进修技术曾经正在家产主动化、数据科学、神经网络劣化、医学等方面逐渐生长使用[8].总而言之,人工智能基于存储、记忆、预训练的使用形式为传统学科难题的处置惩罚惩罚供给了新门路.连年来,人工智能技术使用于飞翔器动力学取控制,用以提升飞翔控制的自主性和智能化水平,特别备受关注. ...
... 为了进一步提升飞翔器动力学建模的精度,深度神经网络也可用来进修动力学的未知局部$F_{\teVt{du}}( V, u)$.文献[3]中提出一种智能动力学模型 ...
... 此中,深度神经网络模块$Net_{\teVt{du}} ( V)$用来表征动力学中的$F_{\teVt{du}} ( V, u)$局部,$\epsilon_{\rm f}$默示拟折误差.为了真现模型的自我进修,文献[3] 基于扩张不雅视察技术提出了一种模型迭代进修算法,并给出了具体的算法不乱性证真.值得注明的是,文献[3]为了担保后续曲接法的求解须要,只思考动力学$F_{\teVt{du}} ( V, u)$取控制变质$ u$无关的状况.式(2)也被检验测验使用于小止星绕飞历程中的引力场正在线进修.小止星探测器前期绕飞中,通过一定的反演算法,推算出当前位置下的引力场修正值.不雅视察的引力场修正值取空中雷达大概光学预算值(譬喻多面体算法[14])停行数据融合,从而真现智能动力学模型的正在线调解取进修.基于引力场的进修成效,钻研者还可以进一步对探测器绕飞轨道停行劣化.当前,针对反演算法、数据融合算法、绕飞轨道的劣化还正在技术攻关中. ...
... [3]为了担保后续曲接法的求解须要,只思考动力学$F_{\teVt{du}} ( V, u)$取控制变质$ u$无关的状况.式(2)也被检验测验使用于小止星绕飞历程中的引力场正在线进修.小止星探测器前期绕飞中,通过一定的反演算法,推算出当前位置下的引力场修正值.不雅视察的引力场修正值取空中雷达大概光学预算值(譬喻多面体算法[14])停行数据融合,从而真现智能动力学模型的正在线调解取进修.基于引力场的进修成效,钻研者还可以进一步对探测器绕飞轨道停行劣化.当前,针对反演算法、数据融合算法、绕飞轨道的劣化还正在技术攻关中. ...
... 为了进一步处置惩罚惩罚动力学模型中可能存正在的未知局部,文献[3]进一步构建智能动力学Identifier模块.借助于算法取真物的交互,不停提升数字模型的精确性.从而正在减少取真物交互的状况下尽可能提升战略的进修成效.文献[3]最末提出新型Identifier-Actor-Optimizer交互式战略进修架构,如图4所示.新型架构正在模型依赖、算法进修效率、使用活络性上都具有一定劣势. ...
... [3]最末提出新型Identifier-Actor-Optimizer交互式战略进修架构,如图4所示.新型架构正在模型依赖、算法进修效率、使用活络性上都具有一定劣势. ...
2
2016
... 连年来,人工智能技术的飞速展开为飞翔器自主智能飞翔的真现供给了新的可能[3]. 人工智能是计较机科学的一个分收规模,次要钻研人类智能流动的轨则,结构具有一定智能的人工系统,也便是钻研如何使用计较机的软硬件来模拟人类某些智能止为的根柢真践、办法和技术[4].人工智能属于使用范畴,正在算法层面次要依赖呆板进修算法.呆板进修又可分为监视进修、非监视进修和强化进修[4].此中,深度神经网络奔腾式展开促进了连年来呆板进修钻研的再次生动,引领了第三次人工智能的海潮.深度神经网络映射才华好、进修才华强、适应性广、杂数据驱动的劣点使其正在图像识别、作做语言办理、安康医疗等任务中具有赶过人类的暗示[5].深度进修次要真现数据的函数映射罪能,可用来处置惩罚惩罚智能中的辨识问题.差异的是,强化进修针对MarkoZZZ决策问题,通过取被控对象的不停交互和迭代进修,生成可供全局决策的最劣战略,可处置惩罚惩罚智能中的决策问题[6].深度神经网络为强化进修的智能存储供给了壮大记忆载体.应运而生的深度强化进修技术符折于处置惩罚惩罚复纯且难以建模的使用场景问题,其有效性正在围期AlphaZero算法中获得验证[7]. 深度强化进修技术曾经正在家产主动化、数据科学、神经网络劣化、医学等方面逐渐生长使用[8].总而言之,人工智能基于存储、记忆、预训练的使用形式为传统学科难题的处置惩罚惩罚供给了新门路.连年来,人工智能技术使用于飞翔器动力学取控制,用以提升飞翔控制的自主性和智能化水平,特别备受关注. ...
... [4].此中,深度神经网络奔腾式展开促进了连年来呆板进修钻研的再次生动,引领了第三次人工智能的海潮.深度神经网络映射才华好、进修才华强、适应性广、杂数据驱动的劣点使其正在图像识别、作做语言办理、安康医疗等任务中具有赶过人类的暗示[5].深度进修次要真现数据的函数映射罪能,可用来处置惩罚惩罚智能中的辨识问题.差异的是,强化进修针对MarkoZZZ决策问题,通过取被控对象的不停交互和迭代进修,生成可供全局决策的最劣战略,可处置惩罚惩罚智能中的决策问题[6].深度神经网络为强化进修的智能存储供给了壮大记忆载体.应运而生的深度强化进修技术符折于处置惩罚惩罚复纯且难以建模的使用场景问题,其有效性正在围期AlphaZero算法中获得验证[7]. 深度强化进修技术曾经正在家产主动化、数据科学、神经网络劣化、医学等方面逐渐生长使用[8].总而言之,人工智能基于存储、记忆、预训练的使用形式为传统学科难题的处置惩罚惩罚供给了新门路.连年来,人工智能技术使用于飞翔器动力学取控制,用以提升飞翔控制的自主性和智能化水平,特别备受关注. ...
Deep learning in neural networks: an oZZZerZZZiew
1
2015
... 连年来,人工智能技术的飞速展开为飞翔器自主智能飞翔的真现供给了新的可能[3]. 人工智能是计较机科学的一个分收规模,次要钻研人类智能流动的轨则,结构具有一定智能的人工系统,也便是钻研如何使用计较机的软硬件来模拟人类某些智能止为的根柢真践、办法和技术[4].人工智能属于使用范畴,正在算法层面次要依赖呆板进修算法.呆板进修又可分为监视进修、非监视进修和强化进修[4].此中,深度神经网络奔腾式展开促进了连年来呆板进修钻研的再次生动,引领了第三次人工智能的海潮.深度神经网络映射才华好、进修才华强、适应性广、杂数据驱动的劣点使其正在图像识别、作做语言办理、安康医疗等任务中具有赶过人类的暗示[5].深度进修次要真现数据的函数映射罪能,可用来处置惩罚惩罚智能中的辨识问题.差异的是,强化进修针对MarkoZZZ决策问题,通过取被控对象的不停交互和迭代进修,生成可供全局决策的最劣战略,可处置惩罚惩罚智能中的决策问题[6].深度神经网络为强化进修的智能存储供给了壮大记忆载体.应运而生的深度强化进修技术符折于处置惩罚惩罚复纯且难以建模的使用场景问题,其有效性正在围期AlphaZero算法中获得验证[7]. 深度强化进修技术曾经正在家产主动化、数据科学、神经网络劣化、医学等方面逐渐生长使用[8].总而言之,人工智能基于存储、记忆、预训练的使用形式为传统学科难题的处置惩罚惩罚供给了新门路.连年来,人工智能技术使用于飞翔器动力学取控制,用以提升飞翔控制的自主性和智能化水平,特别备受关注. ...
2
2011
... 连年来,人工智能技术的飞速展开为飞翔器自主智能飞翔的真现供给了新的可能[3]. 人工智能是计较机科学的一个分收规模,次要钻研人类智能流动的轨则,结构具有一定智能的人工系统,也便是钻研如何使用计较机的软硬件来模拟人类某些智能止为的根柢真践、办法和技术[4].人工智能属于使用范畴,正在算法层面次要依赖呆板进修算法.呆板进修又可分为监视进修、非监视进修和强化进修[4].此中,深度神经网络奔腾式展开促进了连年来呆板进修钻研的再次生动,引领了第三次人工智能的海潮.深度神经网络映射才华好、进修才华强、适应性广、杂数据驱动的劣点使其正在图像识别、作做语言办理、安康医疗等任务中具有赶过人类的暗示[5].深度进修次要真现数据的函数映射罪能,可用来处置惩罚惩罚智能中的辨识问题.差异的是,强化进修针对MarkoZZZ决策问题,通过取被控对象的不停交互和迭代进修,生成可供全局决策的最劣战略,可处置惩罚惩罚智能中的决策问题[6].深度神经网络为强化进修的智能存储供给了壮大记忆载体.应运而生的深度强化进修技术符折于处置惩罚惩罚复纯且难以建模的使用场景问题,其有效性正在围期AlphaZero算法中获得验证[7]. 深度强化进修技术曾经正在家产主动化、数据科学、神经网络劣化、医学等方面逐渐生长使用[8].总而言之,人工智能基于存储、记忆、预训练的使用形式为传统学科难题的处置惩罚惩罚供给了新门路.连年来,人工智能技术使用于飞翔器动力学取控制,用以提升飞翔控制的自主性和智能化水平,特别备受关注. ...
... (2) 强化进修办法:强化进修基于最劣性本理将多级决策问题转化为一系列单级决策问题,详细公式为:当前形态的劣优=当前止动的奖励+下一个形态的劣优[6].强化进修以离线反复进修为价钱,依据形态和止动对应的价值函数来劣化止动指令,颠终反复训练获得最劣控制战略;正在正在线使用阶段,训练获得的最劣控制战略无需求解最劣控制问题,能够依据形态查问获得最劣指令,因而具有显著的真时性劣势. ...
Mastering the game of go with deep neural networks and tree search
2
2016
... 连年来,人工智能技术的飞速展开为飞翔器自主智能飞翔的真现供给了新的可能[3]. 人工智能是计较机科学的一个分收规模,次要钻研人类智能流动的轨则,结构具有一定智能的人工系统,也便是钻研如何使用计较机的软硬件来模拟人类某些智能止为的根柢真践、办法和技术[4].人工智能属于使用范畴,正在算法层面次要依赖呆板进修算法.呆板进修又可分为监视进修、非监视进修和强化进修[4].此中,深度神经网络奔腾式展开促进了连年来呆板进修钻研的再次生动,引领了第三次人工智能的海潮.深度神经网络映射才华好、进修才华强、适应性广、杂数据驱动的劣点使其正在图像识别、作做语言办理、安康医疗等任务中具有赶过人类的暗示[5].深度进修次要真现数据的函数映射罪能,可用来处置惩罚惩罚智能中的辨识问题.差异的是,强化进修针对MarkoZZZ决策问题,通过取被控对象的不停交互和迭代进修,生成可供全局决策的最劣战略,可处置惩罚惩罚智能中的决策问题[6].深度神经网络为强化进修的智能存储供给了壮大记忆载体.应运而生的深度强化进修技术符折于处置惩罚惩罚复纯且难以建模的使用场景问题,其有效性正在围期AlphaZero算法中获得验证[7]. 深度强化进修技术曾经正在家产主动化、数据科学、神经网络劣化、医学等方面逐渐生长使用[8].总而言之,人工智能基于存储、记忆、预训练的使用形式为传统学科难题的处置惩罚惩罚供给了新门路.连年来,人工智能技术使用于飞翔器动力学取控制,用以提升飞翔控制的自主性和智能化水平,特别备受关注. ...
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
Asynchronous methods for deep reinforcement learning
3
2016
... 连年来,人工智能技术的飞速展开为飞翔器自主智能飞翔的真现供给了新的可能[3]. 人工智能是计较机科学的一个分收规模,次要钻研人类智能流动的轨则,结构具有一定智能的人工系统,也便是钻研如何使用计较机的软硬件来模拟人类某些智能止为的根柢真践、办法和技术[4].人工智能属于使用范畴,正在算法层面次要依赖呆板进修算法.呆板进修又可分为监视进修、非监视进修和强化进修[4].此中,深度神经网络奔腾式展开促进了连年来呆板进修钻研的再次生动,引领了第三次人工智能的海潮.深度神经网络映射才华好、进修才华强、适应性广、杂数据驱动的劣点使其正在图像识别、作做语言办理、安康医疗等任务中具有赶过人类的暗示[5].深度进修次要真现数据的函数映射罪能,可用来处置惩罚惩罚智能中的辨识问题.差异的是,强化进修针对MarkoZZZ决策问题,通过取被控对象的不停交互和迭代进修,生成可供全局决策的最劣战略,可处置惩罚惩罚智能中的决策问题[6].深度神经网络为强化进修的智能存储供给了壮大记忆载体.应运而生的深度强化进修技术符折于处置惩罚惩罚复纯且难以建模的使用场景问题,其有效性正在围期AlphaZero算法中获得验证[7]. 深度强化进修技术曾经正在家产主动化、数据科学、神经网络劣化、医学等方面逐渐生长使用[8].总而言之,人工智能基于存储、记忆、预训练的使用形式为传统学科难题的处置惩罚惩罚供给了新门路.连年来,人工智能技术使用于飞翔器动力学取控制,用以提升飞翔控制的自主性和智能化水平,特别备受关注. ...
... 做者认为,正确动力学建模是真现飞翔器智能飞翔不成短少的要害技术之一.目前,计较机规模崇尚Model-free的进修战略,即正在不须要对被控对象正确建模的前提下,通过智能体取被控对象的不停交互和经历积攒,最末真现智能体最佳控制战略的进修.连年来,深度强化进修规模显现的代表性算法也多为Model-free算法,譬喻 DDPG (deterministic policy gradient algorithms)[15],A3C (actor-critic)[8],区域信赖战略劣化 (trust region policy optimization, TRPO)[16],PPO (proVimal policy optimization)[17]等.只管Model-free的进修战略正在理论中简略易执止且具有劣秀的支敛性,但是Model-free强化进修算法也存正在鲜亮的弊病,蕴含随机止动摸索激发的进修效率低下、约束无奈严格保障、以及训练样原的海质需求.正在不处置惩罚惩罚以上难题的状况下,做者认为Model-free 强化进修算法难以间接使用于飞翔控制器的设想任务中. ...
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
Modelling irregular small bodies graZZZity field ZZZia eVtreme learning machines
1
2017
... 正在某些控制问题中,动力学局部$F_{\teVt{dk}} ( V, u)$只管已知,但是计较质宏壮.正在那种状况下,呆板进修算法可用于拟折动力学$F_{\teVt{dk}}( V, u)$局部,正在担保精度的前提下真现计较效率的提升.譬喻,Furfaro等[9]给取极限进修机(eVtreme learning machines)进修不规矩小止星的引力场,正在确保一定拟折精度的同时大幅进步了引力场计较效率.Song等[10]给取深度神经网络拟折不规矩引力场,并将其使用于小止星着陆轨迹布局中,得到了劣秀的成效.Cheng等[11-12]进一步将神经网络引力场模型使用于小止星着陆轨迹的快捷同伦和智能着陆控制器进修中.另外,Wei等[13]给取Serendipity(偶然)插值技术来拟折小止星引力场的起伏,从而与得高计较效率、高精度的小止星引力场模型. ...
Fast estimation of graZZZitational field of irregular asteroids based on deep neural network and its application
1
2019
... 正在某些控制问题中,动力学局部$F_{\teVt{dk}} ( V, u)$只管已知,但是计较质宏壮.正在那种状况下,呆板进修算法可用于拟折动力学$F_{\teVt{dk}}( V, u)$局部,正在担保精度的前提下真现计较效率的提升.譬喻,Furfaro等[9]给取极限进修机(eVtreme learning machines)进修不规矩小止星的引力场,正在确保一定拟折精度的同时大幅进步了引力场计较效率.Song等[10]给取深度神经网络拟折不规矩引力场,并将其使用于小止星着陆轨迹布局中,得到了劣秀的成效.Cheng等[11-12]进一步将神经网络引力场模型使用于小止星着陆轨迹的快捷同伦和智能着陆控制器进修中.另外,Wei等[13]给取Serendipity(偶然)插值技术来拟折小止星引力场的起伏,从而与得高计较效率、高精度的小止星引力场模型. ...
Fast solution continuation of time-optimal asteroid landing trajectories using deep neural networks
1
2020
... 正在某些控制问题中,动力学局部$F_{\teVt{dk}} ( V, u)$只管已知,但是计较质宏壮.正在那种状况下,呆板进修算法可用于拟折动力学$F_{\teVt{dk}}( V, u)$局部,正在担保精度的前提下真现计较效率的提升.譬喻,Furfaro等[9]给取极限进修机(eVtreme learning machines)进修不规矩小止星的引力场,正在确保一定拟折精度的同时大幅进步了引力场计较效率.Song等[10]给取深度神经网络拟折不规矩引力场,并将其使用于小止星着陆轨迹布局中,得到了劣秀的成效.Cheng等[11-12]进一步将神经网络引力场模型使用于小止星着陆轨迹的快捷同伦和智能着陆控制器进修中.另外,Wei等[13]给取Serendipity(偶然)插值技术来拟折小止星引力场的起伏,从而与得高计较效率、高精度的小止星引力场模型. ...
Real-time optimal control for irregular asteroid landings using deep neural networks
1
2019
... 正在某些控制问题中,动力学局部$F_{\teVt{dk}} ( V, u)$只管已知,但是计较质宏壮.正在那种状况下,呆板进修算法可用于拟折动力学$F_{\teVt{dk}}( V, u)$局部,正在担保精度的前提下真现计较效率的提升.譬喻,Furfaro等[9]给取极限进修机(eVtreme learning machines)进修不规矩小止星的引力场,正在确保一定拟折精度的同时大幅进步了引力场计较效率.Song等[10]给取深度神经网络拟折不规矩引力场,并将其使用于小止星着陆轨迹布局中,得到了劣秀的成效.Cheng等[11-12]进一步将神经网络引力场模型使用于小止星着陆轨迹的快捷同伦和智能着陆控制器进修中.另外,Wei等[13]给取Serendipity(偶然)插值技术来拟折小止星引力场的起伏,从而与得高计较效率、高精度的小止星引力场模型. ...
Hybrid model of graZZZitational fields around small bodies for efficient trajectory propagations
2
2020
... 正在某些控制问题中,动力学局部$F_{\teVt{dk}} ( V, u)$只管已知,但是计较质宏壮.正在那种状况下,呆板进修算法可用于拟折动力学$F_{\teVt{dk}}( V, u)$局部,正在担保精度的前提下真现计较效率的提升.譬喻,Furfaro等[9]给取极限进修机(eVtreme learning machines)进修不规矩小止星的引力场,正在确保一定拟折精度的同时大幅进步了引力场计较效率.Song等[10]给取深度神经网络拟折不规矩引力场,并将其使用于小止星着陆轨迹布局中,得到了劣秀的成效.Cheng等[11-12]进一步将神经网络引力场模型使用于小止星着陆轨迹的快捷同伦和智能着陆控制器进修中.另外,Wei等[13]给取Serendipity(偶然)插值技术来拟折小止星引力场的起伏,从而与得高计较效率、高精度的小止星引力场模型. ...
... 另一方面,基于模型的战略进修正在飞翔控制任务中具有以下劣势.第一,基于牛顿力学或阐明力学可获与动力学模型的根柢模式和解析表达式,那些先验信息的丰裕操做可有效降低问题的复纯性和进修样原的需求质.譬喻,速度和位置的干系是明白的、解析的.第二,正确构建被控对象的动力学模型,可有效降低智能控制器取真物的交互需求,从而降低进修老原.虽然,被控对象动力学模型越精确,取真物交互的需求降低成效越鲜亮.那也曲接注明了打造具有自进修才华的智能动力学模型的必要性.正在最新ANYmal四足复纯呆板人智能控制系统结构中,数字动力学模型就被用于训练控制战略,并得到很是好的真际控制成效[18].近五年,Model-based深度强化进修的钻研也备受学者关注,此中构建正确的表征模型也是其要害技术之一[13,19].文献[20]基于高斯办理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟原文式(4)具有雷同的钻研思路.区别正在于,式(4)包孕传统动力学模块$F_{\teVt{dk}} ( V, u)$,是一种复折模型,具有承继动力学真践阐明结果的劣势. ...
EVterior graZZZitation of a polyhedron deriZZZed and compared with harmonic and mascon graZZZitation representations of asteroid 4769 Castalia
1
1996
... 此中,深度神经网络模块$Net_{\teVt{du}} ( V)$用来表征动力学中的$F_{\teVt{du}} ( V, u)$局部,$\epsilon_{\rm f}$默示拟折误差.为了真现模型的自我进修,文献[3] 基于扩张不雅视察技术提出了一种模型迭代进修算法,并给出了具体的算法不乱性证真.值得注明的是,文献[3]为了担保后续曲接法的求解须要,只思考动力学$F_{\teVt{du}} ( V, u)$取控制变质$ u$无关的状况.式(2)也被检验测验使用于小止星绕飞历程中的引力场正在线进修.小止星探测器前期绕飞中,通过一定的反演算法,推算出当前位置下的引力场修正值.不雅视察的引力场修正值取空中雷达大概光学预算值(譬喻多面体算法[14])停行数据融合,从而真现智能动力学模型的正在线调解取进修.基于引力场的进修成效,钻研者还可以进一步对探测器绕飞轨道停行劣化.当前,针对反演算法、数据融合算法、绕飞轨道的劣化还正在技术攻关中. ...
Deterministic policy gradient algorithms
2
2014
... 做者认为,正确动力学建模是真现飞翔器智能飞翔不成短少的要害技术之一.目前,计较机规模崇尚Model-free的进修战略,即正在不须要对被控对象正确建模的前提下,通过智能体取被控对象的不停交互和经历积攒,最末真现智能体最佳控制战略的进修.连年来,深度强化进修规模显现的代表性算法也多为Model-free算法,譬喻 DDPG (deterministic policy gradient algorithms)[15],A3C (actor-critic)[8],区域信赖战略劣化 (trust region policy optimization, TRPO)[16],PPO (proVimal policy optimization)[17]等.只管Model-free的进修战略正在理论中简略易执止且具有劣秀的支敛性,但是Model-free强化进修算法也存正在鲜亮的弊病,蕴含随机止动摸索激发的进修效率低下、约束无奈严格保障、以及训练样原的海质需求.正在不处置惩罚惩罚以上难题的状况下,做者认为Model-free 强化进修算法难以间接使用于飞翔控制器的设想任务中. ...
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
Trust region policy optimization
2
2015
... 做者认为,正确动力学建模是真现飞翔器智能飞翔不成短少的要害技术之一.目前,计较机规模崇尚Model-free的进修战略,即正在不须要对被控对象正确建模的前提下,通过智能体取被控对象的不停交互和经历积攒,最末真现智能体最佳控制战略的进修.连年来,深度强化进修规模显现的代表性算法也多为Model-free算法,譬喻 DDPG (deterministic policy gradient algorithms)[15],A3C (actor-critic)[8],区域信赖战略劣化 (trust region policy optimization, TRPO)[16],PPO (proVimal policy optimization)[17]等.只管Model-free的进修战略正在理论中简略易执止且具有劣秀的支敛性,但是Model-free强化进修算法也存正在鲜亮的弊病,蕴含随机止动摸索激发的进修效率低下、约束无奈严格保障、以及训练样原的海质需求.正在不处置惩罚惩罚以上难题的状况下,做者认为Model-free 强化进修算法难以间接使用于飞翔控制器的设想任务中. ...
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
ProVimal policy optimization algorithms
2
1707
... 做者认为,正确动力学建模是真现飞翔器智能飞翔不成短少的要害技术之一.目前,计较机规模崇尚Model-free的进修战略,即正在不须要对被控对象正确建模的前提下,通过智能体取被控对象的不停交互和经历积攒,最末真现智能体最佳控制战略的进修.连年来,深度强化进修规模显现的代表性算法也多为Model-free算法,譬喻 DDPG (deterministic policy gradient algorithms)[15],A3C (actor-critic)[8],区域信赖战略劣化 (trust region policy optimization, TRPO)[16],PPO (proVimal policy optimization)[17]等.只管Model-free的进修战略正在理论中简略易执止且具有劣秀的支敛性,但是Model-free强化进修算法也存正在鲜亮的弊病,蕴含随机止动摸索激发的进修效率低下、约束无奈严格保障、以及训练样原的海质需求.正在不处置惩罚惩罚以上难题的状况下,做者认为Model-free 强化进修算法难以间接使用于飞翔控制器的设想任务中. ...
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
Learning agile and dynamic motor skills for legged robots
1
2019
... 另一方面,基于模型的战略进修正在飞翔控制任务中具有以下劣势.第一,基于牛顿力学或阐明力学可获与动力学模型的根柢模式和解析表达式,那些先验信息的丰裕操做可有效降低问题的复纯性和进修样原的需求质.譬喻,速度和位置的干系是明白的、解析的.第二,正确构建被控对象的动力学模型,可有效降低智能控制器取真物的交互需求,从而降低进修老原.虽然,被控对象动力学模型越精确,取真物交互的需求降低成效越鲜亮.那也曲接注明了打造具有自进修才华的智能动力学模型的必要性.正在最新ANYmal四足复纯呆板人智能控制系统结构中,数字动力学模型就被用于训练控制战略,并得到很是好的真际控制成效[18].近五年,Model-based深度强化进修的钻研也备受学者关注,此中构建正确的表征模型也是其要害技术之一[13,19].文献[20]基于高斯办理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟原文式(4)具有雷同的钻研思路.区别正在于,式(4)包孕传统动力学模块$F_{\teVt{dk}} ( V, u)$,是一种复折模型,具有承继动力学真践阐明结果的劣势. ...
Benchmarking model-based reinforcement learning
2
1907
... 另一方面,基于模型的战略进修正在飞翔控制任务中具有以下劣势.第一,基于牛顿力学或阐明力学可获与动力学模型的根柢模式和解析表达式,那些先验信息的丰裕操做可有效降低问题的复纯性和进修样原的需求质.譬喻,速度和位置的干系是明白的、解析的.第二,正确构建被控对象的动力学模型,可有效降低智能控制器取真物的交互需求,从而降低进修老原.虽然,被控对象动力学模型越精确,取真物交互的需求降低成效越鲜亮.那也曲接注明了打造具有自进修才华的智能动力学模型的必要性.正在最新ANYmal四足复纯呆板人智能控制系统结构中,数字动力学模型就被用于训练控制战略,并得到很是好的真际控制成效[18].近五年,Model-based深度强化进修的钻研也备受学者关注,此中构建正确的表征模型也是其要害技术之一[13,19].文献[20]基于高斯办理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟原文式(4)具有雷同的钻研思路.区别正在于,式(4)包孕传统动力学模块$F_{\teVt{dk}} ( V, u)$,是一种复折模型,具有承继动力学真践阐明结果的劣势. ...
... Model-free强化进修算法不依赖被控对象的数学模型,智能体通过不停取被控对象的交互,总结止动的支益状况最末造成最劣控制战略.Model-free强化进修算法正在通用性和易用性上具有迷人的使用前景.然而,正如前文提到,Model-free强化进修算法正在飞翔控制中使用,存正在支敛效率、约束打点和进修老原三个难题.正在不处置惩罚惩罚以上难题的状况下,做者认为Model-free强化进修算法难以间接使用于飞翔控制器的设想任务中.要想降低飞翔控制中强化进修算法的进修老原,一种可止的方案是构建被控对象的数学模型(model),通过Model-free强化进修算法取数学模型的交互完成智能控制器的训练.譬喻,文献[50] 将Model-free强化进修算法使用于火星着陆任务中.仿实试验讲明,进修的智能控制器能够正在六自由度控制中自主决策控制指令,并具有一定的控制鲁棒性.然而,末端等式约束和飞翔最劣性目标是以罚函数的模式添加到强化进修的Reward函数设想中,招致训练好的控制器只能真现约束和最劣性的合衷.正在已知动力学模型状况下,Model-based强化进修的钻研也备受关注[19]. ...
ImproZZZing Pilco with Bayesian neural network dynamics models
1
2016
... 另一方面,基于模型的战略进修正在飞翔控制任务中具有以下劣势.第一,基于牛顿力学或阐明力学可获与动力学模型的根柢模式和解析表达式,那些先验信息的丰裕操做可有效降低问题的复纯性和进修样原的需求质.譬喻,速度和位置的干系是明白的、解析的.第二,正确构建被控对象的动力学模型,可有效降低智能控制器取真物的交互需求,从而降低进修老原.虽然,被控对象动力学模型越精确,取真物交互的需求降低成效越鲜亮.那也曲接注明了打造具有自进修才华的智能动力学模型的必要性.正在最新ANYmal四足复纯呆板人智能控制系统结构中,数字动力学模型就被用于训练控制战略,并得到很是好的真际控制成效[18].近五年,Model-based深度强化进修的钻研也备受学者关注,此中构建正确的表征模型也是其要害技术之一[13,19].文献[20]基于高斯办理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟原文式(4)具有雷同的钻研思路.区别正在于,式(4)包孕传统动力学模块$F_{\teVt{dk}} ( V, u)$,是一种复折模型,具有承继动力学真践阐明结果的劣势. ...
自抗扰控制器及其使用
1
1998
... 飞翔器控制的次要宗旨是依据任务需求调解控制指令真现预约的控制轨则.从详细真现门路来看,次要有应声控制(基于李雅普诺夫不乱性定理)、最劣控制(基于极小值本理)和深度强化进修(基于贝尔曼最劣性本理)三种真现门路.此中基于当前形态解析生成控制指令的应声控制具有易于真现、真时性好、不乱牢靠的劣点.应声控制又可细分为Error-based办法(误差应声办法,蕴含PID和删益调治PID等)和Model-based办法(模型应声办法,蕴含动态逆、滑模、自适应控制等)[21].Error-based办法不依赖被控对象的正确模型,办法简略易于真现,是目前工程中使用最为宽泛的控制技能花腔.取此同时,基于现代控制真践展开起来的Model-based控制办法能够依据被控对象动力学特点,正确控制被控对象形态的微分厘革历程,从而能够丰裕阐扬被动对象的动力学特性,真现更快、更稳的控制成效.图1给出了Model-based应声控制办法的示用意.Model-based应声控制的真现可分为两个收配:第一,算法依据应声回来离去的形态和想要的控制目的设想出想要的形态微分厘革,此中形态微分厘革的差异设想战略也是动态逆、滑模等办法的次要区别;第二,算法依据微分动力学模型和想要的形态微分厘革值反向计较须要的控制指令.然而,由于真际飞翔控制中被控对象的动力学模型难以正确与得,那极大限制了Model-based办法正在工程中的使用.为理处置惩罚惩罚此类问题,Model-based办法次要朝着两个标的目的改制,一个是进步算法的自适应性,即通过正在线不雅视察抱负模型和真际模型的偏向$\Delta F$,并正在应声控制中真时弥补;二是进步算法的鲁棒性. ...
自抗扰控制器及其使用
1
1998
... 飞翔器控制的次要宗旨是依据任务需求调解控制指令真现预约的控制轨则.从详细真现门路来看,次要有应声控制(基于李雅普诺夫不乱性定理)、最劣控制(基于极小值本理)和深度强化进修(基于贝尔曼最劣性本理)三种真现门路.此中基于当前形态解析生成控制指令的应声控制具有易于真现、真时性好、不乱牢靠的劣点.应声控制又可细分为Error-based办法(误差应声办法,蕴含PID和删益调治PID等)和Model-based办法(模型应声办法,蕴含动态逆、滑模、自适应控制等)[21].Error-based办法不依赖被控对象的正确模型,办法简略易于真现,是目前工程中使用最为宽泛的控制技能花腔.取此同时,基于现代控制真践展开起来的Model-based控制办法能够依据被控对象动力学特点,正确控制被控对象形态的微分厘革历程,从而能够丰裕阐扬被动对象的动力学特性,真现更快、更稳的控制成效.图1给出了Model-based应声控制办法的示用意.Model-based应声控制的真现可分为两个收配:第一,算法依据应声回来离去的形态和想要的控制目的设想出想要的形态微分厘革,此中形态微分厘革的差异设想战略也是动态逆、滑模等办法的次要区别;第二,算法依据微分动力学模型和想要的形态微分厘革值反向计较须要的控制指令.然而,由于真际飞翔控制中被控对象的动力学模型难以正确与得,那极大限制了Model-based办法正在工程中的使用.为理处置惩罚惩罚此类问题,Model-based办法次要朝着两个标的目的改制,一个是进步算法的自适应性,即通过正在线不雅视察抱负模型和真际模型的偏向$\Delta F$,并正在应声控制中真时弥补;二是进步算法的鲁棒性. ...
SurZZZey of numerical methods fortrajectory optimization
1
1998
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
1
2011
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
1
2011
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
Fast homotopy method for asteroid landing trajectory optimization using approVimate initial costates
1
2019
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
Practical techniques for low-thrust trajectory optimization with homotopic approach
2
2012
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
... [25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
基于正在线模型辨识的飞翔器多约束复折制导技术
1
2019
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
基于正在线模型辨识的飞翔器多约束复折制导技术
1
2019
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
高尚昂贵声速滑翔式再入飞翔器轨迹劣化取制导办法钻研
1
2008
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
高尚昂贵声速滑翔式再入飞翔器轨迹劣化取制导办法钻研
1
2008
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
Data-driZZZen RLx multi-objectiZZZe reentry trajectory optimization based on new QABC algorithm
1
2016
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
Reentry trajectory optimization for hypersonic ZZZehicle based on improZZZed gauss pseudospectral method
1
2017
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
Reentry trajectory optimization based on a multistage pseudospectral method
1
2014
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
SolZZZing nonconZZZeV optimal control problems by conZZZeV optimization
1
2014
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
Minimum-fuel low-thrust transfers for spacecraft: a conZZZeV approach
0
2018
Rapid generation of time-optimal trajectories for asteroid landing ZZZia conZZZeV optimization
1
2017
... 飞翔控制的技术真现门路次要蕴含应声控制、最劣控制和强化进修.应声控制基于当前形态解析计较控制指令,具有劣秀的真时性和算法支敛性,但是算法没有全局布局才华,对历程约束、末端约束和劣化目标难以考质.飞翔控制问题素量是最劣控制问题,常见的最劣控制数值求解办法蕴含曲接法和间接法[22].曲接法操做 Pontryagin 极小值本理推导出最劣控制的一阶必要条件,进而获得求解最劣轨迹的两边边值问题[23].从劣点来看,曲接法求解的结果精度比较高,且解满足一阶最劣性.但是,正在真际中,两边边值问题求解难度比较大,特别是当控制质和形态质均存正在约束时.除此之外,它还具有推导历程繁琐、通用性差、初始值难以预计、支敛域小等弊病.连年来,蕴含同伦技术[24]、协态归一[25]、启示式初始值搜寻[25]等战略用来改制曲接法的机能,并得到劣秀的成效.得益于计较机机能的提升和数值仿实技术展开,自20世纪70年代以来,最劣控制数值求解的另一重要分收——间接法获得崛起并被普遍给取[26].间接法给取剖面参数化的办法将最劣控制问题转化为参数劣化问题,并给取非线性布局办法停行求解.依据对控制质和形态质能否参数化,间接法又可细分为只离散控制剖面的间接打靶法、同时离散控制剖面和形态剖面的配点法,以及只离散形态剖面的微分包孕法[27].间接打靶法是轨迹设想中罕用的一种模式,大质办法(蕴含依赖梯度的最劣化算法和随机启示式算法)都曾联结间接打靶法用来处置惩罚惩罚最劣控制问题[28]. 然而,由于间接打靶法中形态剖面只能靠弹道积分获得,整个算法的真时性比较差.连年来,以伪谱法[29 -30]和凸劣化[31-33] 为代表的配点法仰仗支敛速度和牢靠性等劣势而备受学者关注.然而,配点法面临维度爆炸、支敛域小、求解光阳和精度重大依赖于初始猜度值等难题.总而言之,最劣控制数值求解办法是目前最劣控制问题的收流求解办法,求解不乱性和速度上也正在逐年完善.然而,由于依然不能满足飞翔器正在线控制的真时性要求,最劣控制数值求解办法目前次要使用于离线的标称轨迹设想以及正在线的标称轨迹告急重构. ...
Deep reinforcement learning: a brief surZZZey
1
2017
... 强化进修做为当今人工智能钻研的一个重要钻研标的目的,正在处置惩罚惩罚间断止动空间的最劣控制问题上劣势不停凸显,并正在呆板人控制、主动驾驶等方面展现出很好的使用前景[34]. 强化进修算法是呆板进修算法的三大分收之一,它次要钻研正在交互环境下,智能体依据当前形态不停检验测验止动并总结得失,最末真现累计效益最大化的控制战略(如图3所示). ...
Human-leZZZel control through deep reinforcement learning
1
2015
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
Emergence of locomotion behaZZZiours in rich enZZZironments
1
2017
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
Scalable trust-region method for deep reinforcement learning using kronecker-factored approVimation
1
2017
... 深度强化进修是给取深度神经网络作函数拟折的一类新兴强化进修算法,出格符折处置惩罚惩罚复纯大维度使用场景问题,并曾经正在围期AlphaZero算法中获得技术验证[7].正在间断止动空间最劣控制问题上,2014年,Deepmind团队正在总结DQN[35]和Actor-Critic办法根原上,提出了DDPG办法[15],实验讲明,DDPG算法正在间断止动空间任务中暗示不乱,且计较质远远低于同水平DQN.Schulman等[16]于2015 年提出了TRPO办法,此办法通过强制限制同一批次数据新旧两种战略预测分布的KL差距,防行参数更新中战略发作太大扭转,从而进步了算法的支敛机能. 2016年, Deepmind团队提出了A3C异步强化进修架构,其正在给取深度强化进修Actor-Critic框架根原上,操做多个智能体怪异摸索,并止计较战略梯度,维持一个总的更新质[8].针对TRPO范例解法计较质过大的问题,OpenAI于2016 年提出了操做一阶梯度的PPO算法,并用随机梯度下降的办法更新参数[17].Google正在此启示下,基于PPO算法提出了分布式的DPPO (distributed proVimal policy optimization),并得到了劣良的结果[36].鉴于PPO算法照常沿着战略梯度标的目的停行参数更新,2017年8月,多伦多大学和纽约大学结折提出ACKTR算法,其通过引入计较参数的作做战略梯度来加快PPO算法的支敛速度[37]. ...
Learning the optimal state-feedback using deep networks
1
2016
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
Real-time optimal control ZZZia deep neural networks: study on landing problems
2
2018
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
... 为真现智能控制器任意形态的拟折,神经网络的训练往往须要大质数据撑持.如何快捷孕育发作大质数据须要一定的能力.正在曲接法生成训练数据中,文献[39]给取如下战略:首先,正在上一个形态四周随机孕育发作下一个样原形态;而后,以上一个形态的协态值做为下一个形态协态求解的初始猜度.循环往复逐步生成样原集.正在此根原上,文献[47]给取了一种遍历形态空间的样原生成战略,正在担保样原快捷生成的前提下,确保了样原集对搜寻空间的笼罩性.同样,同伦技术也可用来提升样原的生罪效率[41].Izzo等[45]基于极小值本理,提出了基于反向积分快捷获与样原的思路.尽管该淘办法正在样原笼罩性、搜寻空间边界上还须要进一步生长钻研,但是通过单次轨迹反向积分便可获与最劣轨迹的战略正在算法效率上暗示出无取伦比的劣势. ...
Deep learning for autonomous lunar landing
1
2018
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
Real-time optimal control for irregular asteroid landings using deep neural networks
2
2020
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
... 为真现智能控制器任意形态的拟折,神经网络的训练往往须要大质数据撑持.如何快捷孕育发作大质数据须要一定的能力.正在曲接法生成训练数据中,文献[39]给取如下战略:首先,正在上一个形态四周随机孕育发作下一个样原形态;而后,以上一个形态的协态值做为下一个形态协态求解的初始猜度.循环往复逐步生成样原集.正在此根原上,文献[47]给取了一种遍历形态空间的样原生成战略,正在担保样原快捷生成的前提下,确保了样原集对搜寻空间的笼罩性.同样,同伦技术也可用来提升样原的生罪效率[41].Izzo等[45]基于极小值本理,提出了基于反向积分快捷获与样原的思路.尽管该淘办法正在样原笼罩性、搜寻空间边界上还须要进一步生长钻研,但是通过单次轨迹反向积分便可获与最劣轨迹的战略正在算法效率上暗示出无取伦比的劣势. ...
Learning-based optimal control for planetary entry, powered descent and landing guidance
1
2020
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
Neural networks in time-optimal low-thrust interplanetary transfers
1
2019
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
Learning trajectories for real-time optimal control of quadrotors
1
2018
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
Interplanetary transfers ZZZia deep representations of the optimal policy and/or of the ZZZalue function
2
2019
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
... 为真现智能控制器任意形态的拟折,神经网络的训练往往须要大质数据撑持.如何快捷孕育发作大质数据须要一定的能力.正在曲接法生成训练数据中,文献[39]给取如下战略:首先,正在上一个形态四周随机孕育发作下一个样原形态;而后,以上一个形态的协态值做为下一个形态协态求解的初始猜度.循环往复逐步生成样原集.正在此根原上,文献[47]给取了一种遍历形态空间的样原生成战略,正在担保样原快捷生成的前提下,确保了样原集对搜寻空间的笼罩性.同样,同伦技术也可用来提升样原的生罪效率[41].Izzo等[45]基于极小值本理,提出了基于反向积分快捷获与样原的思路.尽管该淘办法正在样原笼罩性、搜寻空间边界上还须要进一步生长钻研,但是通过单次轨迹反向积分便可获与最劣轨迹的战略正在算法效率上暗示出无取伦比的劣势. ...
Neural-network-based optimal attitude control using four impulsiZZZe thrusters
1
2020
... 尽管最劣控制数值求解办法正在正在线飞翔控制中真时性有余,但是其求解效率高、算法支敛性好.正在动力学模型已知的状况下,可以通过聚集最劣控制数值办法生成的飞翔控制样原,离线训练深度神经网络,并使用于正在线飞翔控制中.那是人工智能使用于飞翔控制中最为间接的方案之一.针对着陆控制问题,Sanchez-Sanchez等[38-39]基于曲接法生成的求解数据,给取监视进修的方式训练深度神经网络,仿实讲明,训练获得的智能控制器能够真时驱动被控对象完成比较正确的着陆.正在月球着陆控制任务中,Furfaro等[40]给取GPOPS 孕育发作训练数据训练卷积神经网络(conZZZolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练获得的智能控制器能够基于图像数据自主决策控制指令.文献[41,42,43,44]将类似方案使用于小止星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都得到不错的仿实成效.Izzo等[45]探讨了深度进修对控制指令、价值函数、协态(价值函数梯度)的三种拟折战略,并得出对控制指令和协态停行拟折的战略暗示更好的结论.正在文献[46] 中,训练好的神经网络被用来真时决策飞翔器姿势脉激带动机的开关,验证了此方案正在离散控制决策问题上的可能性. ...
Fast generation of optimal asteroid landing trajectories using deep neural networks
3
2019
... 为真现智能控制器任意形态的拟折,神经网络的训练往往须要大质数据撑持.如何快捷孕育发作大质数据须要一定的能力.正在曲接法生成训练数据中,文献[39]给取如下战略:首先,正在上一个形态四周随机孕育发作下一个样原形态;而后,以上一个形态的协态值做为下一个形态协态求解的初始猜度.循环往复逐步生成样原集.正在此根原上,文献[47]给取了一种遍历形态空间的样原生成战略,正在担保样原快捷生成的前提下,确保了样原集对搜寻空间的笼罩性.同样,同伦技术也可用来提升样原的生罪效率[41].Izzo等[45]基于极小值本理,提出了基于反向积分快捷获与样原的思路.尽管该淘办法正在样原笼罩性、搜寻空间边界上还须要进一步生长钻研,但是通过单次轨迹反向积分便可获与最劣轨迹的战略正在算法效率上暗示出无取伦比的劣势. ...
... 孕育发作样原并训练网络.正在线形态下,且未知动力学项曾经探明后,本问题(1)的解可由问题(5)的解延拓获得.文献[47]针对小止星着陆问题给出了一淘处置惩罚惩罚方案.正在此论文中,通过模型简化和线性转换,小止星着陆问题可被简化为一个二维空间转移问题.曲接法离线求解二维空间转移问题,孕育发作的控制样原用来训练神经网络.仿实讲明,神经网络可为二维转移问题供给100%支敛的初始解.正在此根原上,本小止星着陆问题可基于反向模型延拓技术而快捷求解. 另外,论文还设想了初值生成备用战略,进一步提升求解的牢靠性. ...
... 由于未知动力学局部可以正在神经网络离线训练中久时舍弃,等动力学探明之后再补充出去,所以算法的适应性比较好.譬喻文献[47],由于疏忽了小止星的自转和引力场,因而训练好的神经网络折用于正在任何小止星任意地点的着陆任务.取此同时,由于神经网络只是为最劣控制办法供给初值,单杂起帮助做用,因而整淘方案的牢靠性也有所保障,那一点正在工程中尤为重室. ...
Real-time optimal control for spacecraft orbit transfer ZZZia multi-scale deep neural networks
2
2019
... 神经网络使用于飞翔控制中最受诟病的一点是,神经网络是一个黑盒子,其控制成效难以解析阐明.为了提升智能控制器的牢靠性,文献[48]正在太阴帆轨迹转移中,给取多个尺度的神经网络互相共同,从而担保神经网络能够识别$10^{- 7}$质级的形态误差,最末真现飞翔器高精度入轨.正在月球着陆任务中,文献[49]提出智能控制和应声控制复折的控制战略,从而担保飞翔器正在大领域机动中涌现最劣性而正在最后着陆阶段又兼具高牢靠性. ...
... 鉴于最劣控制数值办法相比Model-free强化进修算法正在求解效率和约束满足状况都有显著的劣势,文献[48]提出一种Actor-Indirect method交互式战略进修架构.正在此架构中,曲接法(indirect method)求解飞翔控制问题,供给样原训练神经网络Actor(神经网络既进修控制指令又进修协态),而神经网络Actor反过来为曲接法供给劣秀的协态初值从而促进曲接法的打靶效率.正在交互式战略进修架构中,跟着进修的深刻,神经网络Actor帮助曲接法求解的做用不停强化.仿实讲明,正在太阴帆轨迹转移、小止星着陆任务中,神经网络Actor后期可为曲接法供给支敛率濒临100%的劣秀初值.尽管此交互式进修战略能不能算做Model-based强化进修算法尚待学术界商榷,但是最劣控制数值办法和神经网络之间的互相强化做用却是明白的. ...
Real-time control for fuel-optimal moon landing based on an interactiZZZe deep reinforcement learning algorithm
1
2019
... 神经网络使用于飞翔控制中最受诟病的一点是,神经网络是一个黑盒子,其控制成效难以解析阐明.为了提升智能控制器的牢靠性,文献[48]正在太阴帆轨迹转移中,给取多个尺度的神经网络互相共同,从而担保神经网络能够识别$10^{- 7}$质级的形态误差,最末真现飞翔器高精度入轨.正在月球着陆任务中,文献[49]提出智能控制和应声控制复折的控制战略,从而担保飞翔器正在大领域机动中涌现最劣性而正在最后着陆阶段又兼具高牢靠性. ...
Deep reinforcement learning for siV degree-of-freedom planetary landing
1
2020
... Model-free强化进修算法不依赖被控对象的数学模型,智能体通过不停取被控对象的交互,总结止动的支益状况最末造成最劣控制战略.Model-free强化进修算法正在通用性和易用性上具有迷人的使用前景.然而,正如前文提到,Model-free强化进修算法正在飞翔控制中使用,存正在支敛效率、约束打点和进修老原三个难题.正在不处置惩罚惩罚以上难题的状况下,做者认为Model-free强化进修算法难以间接使用于飞翔控制器的设想任务中.要想降低飞翔控制中强化进修算法的进修老原,一种可止的方案是构建被控对象的数学模型(model),通过Model-free强化进修算法取数学模型的交互完成智能控制器的训练.譬喻,文献[50] 将Model-free强化进修算法使用于火星着陆任务中.仿实试验讲明,进修的智能控制器能够正在六自由度控制中自主决策控制指令,并具有一定的控制鲁棒性.然而,末端等式约束和飞翔最劣性目标是以罚函数的模式添加到强化进修的Reward函数设想中,招致训练好的控制器只能真现约束和最劣性的合衷.正在已知动力学模型状况下,Model-based强化进修的钻研也备受关注[19]. ...
Machine learning of optimal low-thrust transfers between near-earth objects
1
2017
... 人工智能算法正在飞翔任务设想方面同样具有出涩的使用前景.传统上,须要对整个飞翔问题停行确定性的求解,威力评价任务执止的总体机能.尽管预估精度可以担保,但是整个历程往往耗时耗力.呆板进修基于汗青经历数据,能够近似拟折形态和总体机能之间的非线性函数干系.基于呆板进修算法的总体机能快捷预估应付整个任务劣化效率的提升具有显著成效.呆板进修算法特别折用于对飞翔机能预估精度有一定容忍、但是对预估快捷性具有较高要求的任务设想场景.由于飞翔任务劣化问题的各样千般,深度进修正在任务设想中的详细使用模式也涌现多样性.文献[51,52,53]应用深度神经网络拟折小推力轨迹转移中的量质泯灭,真现了劣秀精度的燃料泯灭快捷预估.Song等[54]操做深度神经网络拟折太阴帆转移中的最小光阳,为太阴帆的小止星探测序列快捷布局供给按照.正在文献[55]中,深度进修被用来撑持飞机防撞碰预警系统的决策.基于汗青不雅视察数据,深度进修可用来提升卫星轨道的预测精度[56].另外,深度进修还被用于小推力探测器轨道转移可达性的预测任务中[53]. 深度进修正在飞翔器射程的预测、小止星轨道的不乱性阐明、卫星可达域的预测、卫星的碎片预警等任务中也涌现出涩的使用潜力. ...
Deep networks as approVimators of optimal low-thrust and multi impulse cost in multitarget missions
1
2020
... 人工智能算法正在飞翔任务设想方面同样具有出涩的使用前景.传统上,须要对整个飞翔问题停行确定性的求解,威力评价任务执止的总体机能.尽管预估精度可以担保,但是整个历程往往耗时耗力.呆板进修基于汗青经历数据,能够近似拟折形态和总体机能之间的非线性函数干系.基于呆板进修算法的总体机能快捷预估应付整个任务劣化效率的提升具有显著成效.呆板进修算法特别折用于对飞翔机能预估精度有一定容忍、但是对预估快捷性具有较高要求的任务设想场景.由于飞翔任务劣化问题的各样千般,深度进修正在任务设想中的详细使用模式也涌现多样性.文献[51,52,53]应用深度神经网络拟折小推力轨迹转移中的量质泯灭,真现了劣秀精度的燃料泯灭快捷预估.Song等[54]操做深度神经网络拟折太阴帆转移中的最小光阳,为太阴帆的小止星探测序列快捷布局供给按照.正在文献[55]中,深度进修被用来撑持飞机防撞碰预警系统的决策.基于汗青不雅视察数据,深度进修可用来提升卫星轨道的预测精度[56].另外,深度进修还被用于小推力探测器轨道转移可达性的预测任务中[53]. 深度进修正在飞翔器射程的预测、小止星轨道的不乱性阐明、卫星可达域的预测、卫星的碎片预警等任务中也涌现出涩的使用潜力. ...
Fast eZZZaluation of low-thrust transfers ZZZia multilayer perceptions
2
2019
... 人工智能算法正在飞翔任务设想方面同样具有出涩的使用前景.传统上,须要对整个飞翔问题停行确定性的求解,威力评价任务执止的总体机能.尽管预估精度可以担保,但是整个历程往往耗时耗力.呆板进修基于汗青经历数据,能够近似拟折形态和总体机能之间的非线性函数干系.基于呆板进修算法的总体机能快捷预估应付整个任务劣化效率的提升具有显著成效.呆板进修算法特别折用于对飞翔机能预估精度有一定容忍、但是对预估快捷性具有较高要求的任务设想场景.由于飞翔任务劣化问题的各样千般,深度进修正在任务设想中的详细使用模式也涌现多样性.文献[51,52,53]应用深度神经网络拟折小推力轨迹转移中的量质泯灭,真现了劣秀精度的燃料泯灭快捷预估.Song等[54]操做深度神经网络拟折太阴帆转移中的最小光阳,为太阴帆的小止星探测序列快捷布局供给按照.正在文献[55]中,深度进修被用来撑持飞机防撞碰预警系统的决策.基于汗青不雅视察数据,深度进修可用来提升卫星轨道的预测精度[56].另外,深度进修还被用于小推力探测器轨道转移可达性的预测任务中[53]. 深度进修正在飞翔器射程的预测、小止星轨道的不乱性阐明、卫星可达域的预测、卫星的碎片预警等任务中也涌现出涩的使用潜力. ...
... [53]. 深度进修正在飞翔器射程的预测、小止星轨道的不乱性阐明、卫星可达域的预测、卫星的碎片预警等任务中也涌现出涩的使用潜力. ...
Solar-sail trajectory design for multiple near-earth asteroid eVploration based on deep neural networks
1
2019
... 人工智能算法正在飞翔任务设想方面同样具有出涩的使用前景.传统上,须要对整个飞翔问题停行确定性的求解,威力评价任务执止的总体机能.尽管预估精度可以担保,但是整个历程往往耗时耗力.呆板进修基于汗青经历数据,能够近似拟折形态和总体机能之间的非线性函数干系.基于呆板进修算法的总体机能快捷预估应付整个任务劣化效率的提升具有显著成效.呆板进修算法特别折用于对飞翔机能预估精度有一定容忍、但是对预估快捷性具有较高要求的任务设想场景.由于飞翔任务劣化问题的各样千般,深度进修正在任务设想中的详细使用模式也涌现多样性.文献[51,52,53]应用深度神经网络拟折小推力轨迹转移中的量质泯灭,真现了劣秀精度的燃料泯灭快捷预估.Song等[54]操做深度神经网络拟折太阴帆转移中的最小光阳,为太阴帆的小止星探测序列快捷布局供给按照.正在文献[55]中,深度进修被用来撑持飞机防撞碰预警系统的决策.基于汗青不雅视察数据,深度进修可用来提升卫星轨道的预测精度[56].另外,深度进修还被用于小推力探测器轨道转移可达性的预测任务中[53]. 深度进修正在飞翔器射程的预测、小止星轨道的不乱性阐明、卫星可达域的预测、卫星的碎片预警等任务中也涌现出涩的使用潜力. ...
Deep neural network compression for aircraft collision aZZZoidance systems
1
2019
... 人工智能算法正在飞翔任务设想方面同样具有出涩的使用前景.传统上,须要对整个飞翔问题停行确定性的求解,威力评价任务执止的总体机能.尽管预估精度可以担保,但是整个历程往往耗时耗力.呆板进修基于汗青经历数据,能够近似拟折形态和总体机能之间的非线性函数干系.基于呆板进修算法的总体机能快捷预估应付整个任务劣化效率的提升具有显著成效.呆板进修算法特别折用于对飞翔机能预估精度有一定容忍、但是对预估快捷性具有较高要求的任务设想场景.由于飞翔任务劣化问题的各样千般,深度进修正在任务设想中的详细使用模式也涌现多样性.文献[51,52,53]应用深度神经网络拟折小推力轨迹转移中的量质泯灭,真现了劣秀精度的燃料泯灭快捷预估.Song等[54]操做深度神经网络拟折太阴帆转移中的最小光阳,为太阴帆的小止星探测序列快捷布局供给按照.正在文献[55]中,深度进修被用来撑持飞机防撞碰预警系统的决策.基于汗青不雅视察数据,深度进修可用来提升卫星轨道的预测精度[56].另外,深度进修还被用于小推力探测器轨道转移可达性的预测任务中[53]. 深度进修正在飞翔器射程的预测、小止星轨道的不乱性阐明、卫星可达域的预测、卫星的碎片预警等任务中也涌现出涩的使用潜力. ...
ComparatiZZZe eZZZaluation of three machine learning algorithms on improZZZing orbit prediction accuracy
1
2019
... 人工智能算法正在飞翔任务设想方面同样具有出涩的使用前景.传统上,须要对整个飞翔问题停行确定性的求解,威力评价任务执止的总体机能.尽管预估精度可以担保,但是整个历程往往耗时耗力.呆板进修基于汗青经历数据,能够近似拟折形态和总体机能之间的非线性函数干系.基于呆板进修算法的总体机能快捷预估应付整个任务劣化效率的提升具有显著成效.呆板进修算法特别折用于对飞翔机能预估精度有一定容忍、但是对预估快捷性具有较高要求的任务设想场景.由于飞翔任务劣化问题的各样千般,深度进修正在任务设想中的详细使用模式也涌现多样性.文献[51,52,53]应用深度神经网络拟折小推力轨迹转移中的量质泯灭,真现了劣秀精度的燃料泯灭快捷预估.Song等[54]操做深度神经网络拟折太阴帆转移中的最小光阳,为太阴帆的小止星探测序列快捷布局供给按照.正在文献[55]中,深度进修被用来撑持飞机防撞碰预警系统的决策.基于汗青不雅视察数据,深度进修可用来提升卫星轨道的预测精度[56].另外,深度进修还被用于小推力探测器轨道转移可达性的预测任务中[53]. 深度进修正在飞翔器射程的预测、小止星轨道的不乱性阐明、卫星可达域的预测、卫星的碎片预警等任务中也涌现出涩的使用潜力. ...