有限规划的水平自适应马尔可夫决策过程的参数决策

有限规划的水平自适应马尔可夫决策过程的参数决策

一、有限规划水平自适应Markov决策过程的参数决策(论文文献综述)

邓琪,高建军,葛冬冬,何斯迈,江波,李晓澄,王子卓,杨超林,叶荫宇[1](2020)在《现代优化理论与应用》文中研究说明过去数十年间,现代运筹学,特别是优化理论、方法和应用有了长足的发展.本文就运筹与优化多个领域的一些背景知识、前沿进展和相关技术做了尽可能详尽的概述,涵盖了线性规划、非线性规划、在线优化、机器学习、组合优化、整数优化、机制设计、库存管理和收益管理等领域.本文的主要目标并非百科全书式的综述,而是着重介绍运筹学某些领域的主流方法、研究框架和前沿进展,特别强调了近期一些比较重要和有趣的发现,从而激发科研工作者在这些领域进行新的研究.

赵扬[2](2020)在《基于马尔科夫决策过程的城市轨道交通轨道不平顺修理决策优化技术研究》文中进行了进一步梳理近年来,我国城市轨道交通发展十分迅速。随着城市轨道交通运营里程的不断增加,人们越来越关注列车运营的安全性和舒适性。而轨道不平顺对于行车的安全、舒适性以及环境噪声等均有非常重要的影响。因此,研究城市轨道交通轨道不平顺修理决策优化技术,对科学控制轨道不平顺修理成本,确保行车安全有着重要意义。本文通过分析国内外关于轨道不平顺修理决策优化研究现状,结合城市轨道交通轨道不平顺的修理决策需求,构建了基于马尔科夫决策过程(Markov Decision Process,MDP)的城市轨道交通轨道不平顺修理决策优化模型。模型将一条线路以200m为单位划分为多个轨道单元,在考虑轨道不平顺劣化的不确定性和异质性因素的前提下,采用MDP方法制定该条线路在一个长周期内最优的轨道不平顺修理决策。模型以当前决策时刻至周期末的成本最小为目标函数,约束条件包含了修理活动约束、轨道单元数量约束、修理预算约束、状态等级比例约束和状态转移约束等,最后通过混合整数线性规划算法进行模型求解。为对模型进行验证,作者通过参与北京交通大学承担的北京市交通委员会项目《基于大数据的轨道线路精细化管理》以及北京市地铁运营有限公司项目《北京地铁轨道智能运维管理信息系统》,收集了北京地铁1号线上下行的历史轨检车检测数据,年度修理计划和线路设备台账数据,确定了模型计算所需的参数,并通过蒙特卡罗模拟方法对1号线上行线及下行线5年的轨道不平顺状态变化进行动态模拟,实现了修理决策的动态优化。最后,将模型计算后得到的修理决策与现场实际的执行修理决策进行对比,结果表明经模型优化后的修理决策能够基于轨道当前时刻的不平顺状态及状态变化规律,针对不同空间位置的轨道单元科学安排修理活动,在保障安全的同时有效降低了修理成本,从而验证了模型的有效性。作者设计与开发了北京地铁轨道不平顺修理决策优化子系统,作为北京地铁轨道智能运维管理信息系统的子系统。论文对北京地铁轨道不平顺修理决策优化子系统的功能模块和数据库进行了设计,并利用Microsoft Visual Studio 2015开发工具和Matlab程序实现了系统的开发工作。最后利用1号线上行线的轨检车数据进行系统的应用效果分析,验证了系统功能的有效性。

陈春梅[3](2020)在《认知无线电自组织网络中的中继传输关键技术研究》文中认为认知无线电自组织网络(Cognitive Radio AdHoc Networks,CRAHNs)是一种融合认知无线电技术和AdHoc网络技术于一体的无线通信网络,有着低成本、易组网、频谱利用率高等诸多优点。CRAHNs的成熟运用将为信息化战争、人工智能以及紧急救援等网络建设提供有力的通信保障。中继传输技术作为CRAHNs的关键技术,在扩大网络覆盖范围、提高网络可靠性等方面起到至关重要的作用。然而,随着CRAHNs规模的不断扩大,使得网络运算空间的复杂度增加、信道选择的维度增大、信道交会即建立通信链路的时间变长,导致现有的中继传输技术难以有效控制网络时延并持续保障其传输性能。因此,本文从影响CRAHNs响应时间和吞吐量性能的网络状态空间、信道选择以及信道交会等因素出发,对以下四个中继传输关键问题展开了深入研究。1.研究了多中继优化选择策略。针对多中继选择容易存在节点冗余或不足的问题,构建了能量加权之和最小化的动态规划优化模型,提出一种基于模拟退火思想的逆向Metropolis准则的网络状态空间剪枝算法。根据信道状态转移概率以及最优邻居子集信息实现了最优多中继选择策略。实验表明该策略能有效减少运算复杂度,同时提高吞吐量并降低平均时延。2.研究了最佳信道选择策略。针对CRAHNs中多个感知信道共存时导致的信道决策问题,基于多臂赌博机(Multi-Armed Bandit,MAB)学习模型,提出了以“信道建臂”的多约束条件下的最优信道选择策略。依托Gilbert-Elliott两状态马尔可夫信道模型,利用置信区间上界(Upper Confidence Bound,UCB)的最大回报来优化信道的选择,并在此基础上提出了一种基于信道质量估计的最佳信道快速收敛方法。3.研究了自适应数据传输优化策略。针对动态环境下信道时变导致数据传输模式不能恒定的问题,提出了以“包长建臂”的MAB包长自适应传输策略。在发送成功或失败将分别受到奖励或惩罚的约束条件下,利用UCB的累积收益来最大化系统吞吐量,并在置信因子和平衡系数的双重作用下提高了系统的收敛速度。4.研究了基于跳频序列的信道盲交会策略。针对盲信道条件下通信链路建立困难问题,分别研究了同步、异步网络环境下基于跳频序列的信道交会策略。在共同信道跳频序列SYN-ETCH和Quorum理论的基础上,提出了基于周期堆叠的PSCH构建方法,降低了平均信道交会时间并保障了交会稳定性。

周鑫[4](2019)在《复杂场景下无人机侦察集群多模式任务规划方法研究》文中进行了进一步梳理无人作战正在成为一种改变战争形态的新型作战样式,无人机集群侦察作为最具典型性的无人作战运用问题,受到了世界各军事强国持续关注,是当前亟待研究的问题。本文聚焦复杂场景下无人机集群广域持续侦察问题,提出了一种作战体系架构形式化描述和方案空间探索方法,进而研究了三种典型指控模式的集群在线任务规划问题。论文主要工作和创新点如下:(1)针对作战体系架构潜在能力不确定问题,提出了一种搜索策略最优的多项式时间架构方案空间探索算法。架构限定了集群任务范围,指定了不同复杂场景下应采取的集群指控模式。首先,基于作战体系能力生成要素,给出了作战体系架构的形式化定义,构建了作战体系架构超网络模型。其次,建立了作战体系架构方案空间探索问题模型,并将该问题转换为一种动态规划问题。鉴于此,提出了一种基于贪婪搜索的架构方案空间动态探索算法。通过理论分析和仿真实验,证明和验证了该算法是多项式时间最优的。(2)针对中心互联式弱耦合集群侦察问题,提出了一种行动链路最优的在线任务规划算法。在中心互联式集群中,联合行动链路空间随着无人机数量和规划步长的增加而呈现双指数增长。聚焦该挑战,首先将集群侦察问题抽象为多Agent部分可观马尔科夫决策过程。再者,通过扩展蒙特卡罗树搜索,提出了一种适用于弱耦合集群的行动链路在线规划算法。该算法创新之处在于并行构建局部前瞻树,且在每个局部前瞻树特定位置,采用变量消元法计算最优联合行动。(3)针对分布固联式大规模集群侦察问题,提出了一种行动链路近似最优的集线任务规划算法。在分布固联式集群中,设计简洁但高效的合作机制是重难点问题。为了解决该问题,首先将集群侦察问题建模为传递函数解耦的部分可观马尔科夫决策过程。进一步,提出了一种适用于大规模集群侦察的行动链路在线规划算法。该算法为每架无人机构建了独立的局部前瞻树,通过分布式顺次分配机制依次确定每架无人机的行动策略。(4)针对分布适变式自学习集群侦察问题,提出了一种特定条件下行动链路近似最优的在线学习与任务规划算法。未知环境下派遣集群高质量地完成任务是一项具有挑战性的工作。聚焦该挑战,首先将集群侦察问题建模为贝叶斯自适应的传递函数解耦部分可观马尔科夫决策过程。其次,基于贝叶斯学习、蒙特卡洛树搜索和顺次分配法,提出了一种适应未知环境的集群侦察方法。该方法突出特点是在灵活的协作机制下,迭代地执行在线学习算法和行动链路规划算法。

陈鑫影[5](2019)在《层级语义下情境适应的SWoT服务组合与选择机理》文中认为语义物联网是物联网内在矛盾的应对之策,它不是物联网和语义网的简单叠加,而是物联网的提升。语义互操作(语义协同)即在语义层面的信息交换和信息共享。语义物联网中的服务和其它服务并不是完全分裂的,网络中的服务加上语义标注后与物理实体设备绑定映射,就具备了语义物联网服务的特点。面对海量的、冗杂的网络数据,为在动态环境中,快速和准确地应对动态、复杂的服务需求,需要基于语义互操作对语义物联网服务的关键技术进行研究。目前,基于语义互操作的语义物联网服务的研究已经取得了一些进展,但仍然存在诸多亟待解决的关键问题,例如,如何有效解决语义关系的链接预测,如何解决服务情境规则的自动提取,如何高效而准确地获取动态服务组合等等。本文将针对这几个密切相关的热点问题,从如下三个方面进行系统性的研究。本文的主要研究成果如下。(1)为了解决语义物联网服务间的语义关系的链接预测和自动协作问题,提出了对应的解决方案,具体内容包括:1)首先,基于语义链接网络提出一种三层级语义服务结构化网络模型(SNM4SS)。SNM4SS模型能够表达丰富的语义关系并进行推理,可以实现语义物联网服务的自动协作。2)为了构建三层级语义服务结构化网络模型,基于Markov网、服务事件间的语义关系矩阵和边删除算法,分别提出基于条件互信息的语义服务事件网的构建算法(SSEN)和动态更新算法(SSENU)。3)此后,由于语义服务事件网的动态构建需要解决服务事件链接推理问题,因此,基于Markov逻辑网和随机游走策略,提出了一种服务事件链接推理算法(SELR)。SELR推理算法能降低推理运算中的节点数,避免了利用闭Markov逻辑网建模所带来的巨大时空开销问题,可以更为有效解决面向多层级语义服务结构化网络中服务事件关系的链接预测问题。最后,通过一系列的实验验证了所提出算法的有效性。(2)为了提供更为准确的语义服务,提高服务情境规则的提取效率和准确率,提出了一种语义服务的复杂自适应情境规则的提取方法,包括:1)首先,基于可分辨关系和可分辨约简,设计一个决策分辨约简算法(DecDepRed),DecDepRed算法将传统的逻辑知识粒化过程转化为矩阵计算,可完成上下文冗余属性的快速约简。2)然后,提出了基于决策依赖度的规则提取算法(DecDepRul),DecDepRul算法可以进行上下文冗余属性值的快速约简,并将约简结果自动转换为决策规则。最后,通过实验验证新方法生成的规则的简洁性和有效性。(3)为满足实时的动态的语义服务需求,高效而准确地获取动态服务组合,提出了一种语义物联网服务智能组合和选择方法。具体内容包括:1)首先,提出了基于语义匹配度和组合服务质量的模型QoS(CS)并设计了相关求解算法。QoS(CS)模型综合考虑了组合服务的子服务间的局部语义匹配,需求与服务间的全局匹配,服务的输入和输出参数间的依赖关系,以及复合服务的QoS质量模型等多方面因素。2)然后,基于QoS(CS)模型和遗传算法,提出了一种语义物联网服务智能组合与选择算法(IC&SSWTS)。通过实验发现,IC&SSWTS算法能够在较低成本和代价的前提下,提供较为合理的近似最优解。

焉台郎[6](2019)在《基于高斯过程回归的多水下滑翔机自适应采样路径规划》文中提出水下滑翔机是海洋环境立体观测的重要手段之一。多机协同观测是水下滑翔机重要发展方向,可实现大范围、长时序、连续立体观测。多水下滑翔机协作完成海洋环境的观测离不开多机协同的自适应采样策略,包括水下滑翔机的自主路径规划和协同采样能力。本文开展了基于高斯过程回归和马尔可夫决策过程的多水下滑翔机采样路径规划方法研究,建立了信息化采样和抵抗洋流干扰的自适应采样模型,旨在提高海洋观测效率和观测精度。论文主要研究内容如下:(1)运用高斯过程回归方法进行多水下滑翔机协同采样路径规划。路径规划策略中,以最大化采样信息为目标,以采样标准差为判据选择采样位置,同时考虑多水下滑翔机异步出水/通讯的问题。进行了模拟温度场与南海真实温度场的仿真采样实验,验证了方法的可行性。(2)海洋洋流是水下滑翔机路径规划和影响采样精度的主要外界干扰,如何有效地减弱洋流对水下滑翔机采样规划的干扰是提升采样效率和观测质量的关键问题。本文根据海洋环境洋流干扰,在马尔可夫决策过程模型框架下,结合滑翔机运动与海洋洋流干扰设计状态转移概率,建立服从高斯分布的状态转移函数,实时更新状态转移分布,同时区别贪婪算法的采样策略,以更加远视的方法选取采样点,依据无限视野值函数计算最优策略指导水下滑翔机前进完成采样,实现洋流干扰下的自适应采样规划的最优决策。(3)基于上述马尔科夫决策过程模型,结合高斯过程回归方法进行多水下滑翔机路径规划,完成海洋环境自适应采样。以海洋温度场为背景,模拟不同洋流场影响下的路径规划结果,包括洋流速度呈正弦变化、梯度变化,以及均匀大小不同方向时的流场和旋涡场。仿真实验结果表明,采用基于高斯过程回归和马尔科夫决策过程模型的路径规划方法可实现重复采样区域少,且观测环境场重建质量高。最后,讨论了复杂洋流场下的优化布放位置和滑翔机数量。

李海涛[7](2019)在《不确定环境下旱灾风险调控群决策方法研究》文中研究表明21世纪以来,在全球气候变化和人类活动影响下,旱灾呈现进一步加剧趋势,已成为制约各国经济社会可持续发展的重要问题之一。我国受旱灾影响严重,但当前阶段抗旱减灾体系总体上仍较为滞后。在水资源-经济社会-生态环境协同发展、应对气候变化等国家重大战略部署下,我国抗旱减灾工作面临新的挑战和更高的要求,旱灾风险管理新理念、新思路已得到我国各界人士的关注与研究。本文立足旱灾风险调控决策理论与实践中存在的问题与不足,紧跟风险管理与群决策理论方法的研究前沿,按照理论分析、方法构建、案例实证的思路开展研究。提出多主体参与的旱灾风险调控群决策研究框架,构建群决策信息提取和集结的随机EMD方法;进而针对旱灾风险调控决策中的一般性问题,建立基于不确定语言信息、不确定混合信息以及不确定随机动态信息的旱灾风险调控群决策方法;选取河南省农业旱灾风险调控典型问题实证分析,形成方法应用模式。研究成果对揭示旱灾风险调控决策不确定性并构建量化分析模型具有理论意义,对丰富和发展群决策理论方法体系具有推动作用,对政府科学调控和综合应对旱灾风险具有实际应用价值。本文主要工作集中在以下六个方面:(1)提出多参与主体的旱灾风险调控群决策研究框架,分析了群决策中的不确定性特征。通过分析旱灾风险系统构成要素及其相互作用机理,指出风险的不确定性和系统的复杂性是旱灾风险调控面临的决策环境;基于水资源-经济社会-生态环境系统协同发展理念,提出了多主体协同参与的旱灾风险调控群决策研究框架,分析了开展旱灾风险调控群决策研究的可行性与必要性;从三个方面分析了旱灾风险调控群决策中的不确定性特征:一是反映旱灾风险系统内在本质的随机性等不确定性;二是反映由于人类认识不足、信息缺失或知识缺乏而导致群决策信息不确定性;三是反映群决策过程与方法的不确定性。(2)融合随机模拟与滤波分析方法,提出了群决策信息提取和集结的随机EMD(Empirical Mode Decomposition)方法。分析指出传统群决策方法大多须对专家赋权实现群决策信息集结,但赋权方法存在主观性大、无统一衡量标准等问题;分析了群决策信息的差异性、无序性、不确定性特征,基于群决策信息包含主观成分与客观成分、客观成分对决策起决定性作用的基本假设,融合Monte Carlo随机模拟与EMD方法优势设计MC-EMD算法,实现群决策信息的自适应提取与集结,提高群决策结果客观性和可靠性;运用大数定律讨论了方法的收敛性与物理意义;结合数值算例对比分析了方法的可行性与优越性。(3)提出了不确定语言信息下旱灾风险调控群决策方法。针对群决策信息为不确定语言变量的情形,运用群决策信息提取和集结的随机EMD方法,提出了基于不确定语言信息的旱灾风险调控群决策方法。梳理了现有的语言评估标度,设计了多粒度语言信息一致化处理规则;为充分利用群决策信息,基于LHA(Linguistic Hybrid Averaging)算子、数值覆盖与灰信息表征方法、模糊正态分布隶属函数,分别构建了不确定语言群决策信息融合的LHA法、三参数区间灰数法与正态分布随机变量法;应用示例对比分析验证了上述方法均可行有效,可为旱灾风险调控多领域专家方案论证提供支持。(4)提出了不确定混合信息下旱灾风险调控群决策方法。针对群决策信息呈现多元不确定表征方式混合特征,运用群决策信息提取和集结的随机EMD方法,提出了基于不确定混合信息的旱灾风险调控群决策方法。设计了基于社会调查的混合决策信息采集办法,总结了常用的不确定偏好信息表征方式,提出了一致化为归一化效用值的转换方法;基于云模型和Monte Carlo模拟思想,提出了不确定混合群决策信息的正态云融合方法,以弥补随机抽样决策信息不完全、信息处理中决策信息丢失以及多次决策结论非一致等不足;应用示例验证了方法的合理有效性,可为面向公众参与的旱灾风险调控方案决策提供支持。(5)提出了不确定随机动态旱灾风险调控群决策方法。针对旱灾风险发展演变的随机性与决策者心理行为复杂性,根据群决策信息提取和集结的随机EMD方法,构建了基于参照点依赖与不确定混合信息的不确定随机动态旱灾风险调控群决策方法。提出了该类群决策问题的一般框架;依据TRP(Tri-reference Point)基本思想,提出将群体理想点、预期点和临界点设置为风险型群决策参照点,综合利用了累积前景理论、Markov链以及Orness测度等理论优势,提出了风险型动态群决策信息融合方法;应用示例验证了方法的科学有效性,可为旱灾风险调控方案的多阶段动态群决策提供支持。(6)河南省农业旱灾风险调控群决策实证分析。构建了多元截面数据灰色变化率关联分析模型,识别河南省农业旱灾脆弱性关键驱动因子;针对河南省雨养农业区和灌溉农业区防控与化解农业旱灾风险中的突出问题,构建了政策性农业保险产品与小型农田水利设施管护模式的区域适用性评价指标体系,设计了群决策信息采集的评价问卷与调研提纲,分别以陕州区和滑县为例,运用本文理论成果解决了政策性农业保险产品择优投放和小型农田水利设施管护模式优选问题,形成方法应用模式,可为一般区域政府决策部门提高旱灾风险调控效率、增强公共决策的民主化与科学化水平提供支持。

章闻曦[8](2019)在《柔性机械臂点到点运动与轨迹跟踪的振动控制方法研究》文中进行了进一步梳理机器人柔性机械臂具有机动性好、覆盖范围大、成本低和节能等诸多优势,得到日益深入的研究和广泛的应用。但是柔性机械臂运动存在振动这一共性问题,解决振动问题是有效运用柔性机械臂高质量完成控制任务的基础和关键。传统的柔性机械臂控制任务与目的涉及了位置与跟踪控制的残余振动抑制和跟踪控制的稳态振动抑制,解决振动问题的机理方法和效果存在一定的局限性和不足。论文研究了改进残余振动和稳态振动的控制方法,针对传统策略与方法的现有问题和连续减振需求,探索研究了解决动态的振动减除的振动避免原理和方法,并研究了机器学习的自治振动控制方法与算法。主要研究内容和创新点总结如下:(1)针对柔性机械臂的残余振动问题,研究了点到点的振动抑制控制,提出频谱激励减振方法。引入和研究关于减振的动力学模型非线性降解的局域不变性准则,研究和建立了该准则下参数变动灵敏性分析指标,给出非线性模型分段线性化计算法,数值仿真检验局域不变性。研究证明了多模态耦合和后置构型变动下一致减振的存在性,给出减振条件和多谐振零化计算模型;证明离线逆向生成时分激励的频谱激励减振计算性质,给出减振控制设计方法。研究了多模态谐振带的减振控制,研究给出带状模态减振性质,由带状减振增强频谱激励减振控制的鲁棒性。根据两连杆机构的物理模型进行控制器设计和计算,给出对象的振动控制数值仿真,检验了频谱激励减振控制的有效性。(2)针对跟踪控制的振动问题,研究了动态平衡的减振方式,探索了刚随柔动的振动避免控制方法。通过研究材料力学和振动力学,构想了弹性体中性面变形的顺势激励方式,提出刚轴推进跟随柔杆进动的新控制原理,构建了刚随柔动、刚柔同步一体的避免振动的控制基础。研究了柔性机械臂避振控制的任务与目的,给出振动避免定义。研究了基于刚随柔动的超前和滞后型连杆中性面单侧稳恒运行的机制,以及该机制的性质和控制律,给出振动避免控制器实现。基于振动避免方法的性质研究了避振控制在形变定义域上平衡点和不变集的动平衡态。研究刚随柔动原理方法的振动控制闭环系统的稳定性。根据动态平衡的稳定性质和条件,基于Lyapunov稳定定理和LaSalle不变性定理证明了跟踪避振PD控制闭环系统关于动平衡态和正向极限点的全局渐进一致的稳定性。通过仿真验证了跟踪避振方法的有效性。(3)针对振动避免控制,探索了增强学习递推生成控制的方式。根据带减额因子的性能指标,研究得出可含减振命令的增广状态无限时间LQT二次型;研究了跟踪减振效用的基于Markov链动态规划的最优评估Bellman方程,以及遍历性和平稳性条件下前向递归策略评价和改进计算原理,给出了最优策略的代数Riccati方程。研究了时序差分法和策略随机逼近的在线迭代算法;针对跟踪减振单样本路径的决策最优,研究了Q函数的双重功效,给出不依赖动力学知识的策略评价与改进处理;研究含输入增广状态的数值型二次型Q函数Bellman方程,给出了Q学习策略评价与改进的最优控制逼近在线前向迭代算法。通过对柔性单连杆机械臂的跟踪振动控制数值仿真,检验了在线因果递归Q学习跟踪振动控制的有效性。

颛孙少帅[9](2019)在《基于强化学习理论的通信干扰策略学习方法研究》文中认为随着电子战在现代战争中的地位愈加凸显,夺取电磁频谱的控制权已成为战场制胜的关键手段。由于干扰环境的复杂性以及敌方在通信过程中采用多种抗干扰技术、人工智能技术,极大地增加了成功干扰的难度。值得庆幸的是,认知干扰概念的提出,拉近了对抗双方在博弈能力上的差距。特别是将强化学习理论用于通信干扰策略学习,使得干扰设备在与环境的交互过程中不断调整干扰策略,克服了未知因素对学习的影响,并最终实现最优干扰策略的学习。当前对干扰策略的研究仍存在一定的问题,突出体现在耗费过多交互次数以及应用场景局限性。本文针对不同场景下干扰策略的学习方法展开研究,主要研究内容如下:(1)复杂未知的电磁环境致使目标信号的星座图发生不同程度的畸变,经典的最佳干扰策略往往并非最佳。为了学习到受畸变信号的最佳干扰样式,提出了一种针对高阶调制信号的通用干扰样式构造方法,通过正交分解的方式构造不同种类的干扰样式。现有强化学习算法用于最优干扰策略学习,试错次数多,收敛速度慢,论文分别从搜索和预测两个角度提高最优干扰策略学习的时效性。在搜索策略研究方面:(1)利用离散划分后干扰动作之间的相关特性,提出了一种基于正强化学习的干扰策略学习算法,通过提高最优策略被选中概率的方式,减少了学习过程中所需的交互次数。(2)为了降低正强化学习算法中策略选择的随机性,提出了一种基于双层强化学习的干扰策略学习算法,通过增加约束条件的方式缩小最优策略的搜索范围,进一步减少了学习过程中所需的交互次数。(3)为了降低双层强化学习算法中搜索方向的随机性,提出了一种基于局部搜索的干扰策略学习算法,通过逐步逼近最优策略的方式进一步减少学习所需的交互次数,此外还具备了边学习边干扰的能力。仿真实验表明,上述三种基于搜索的干扰策略学习算法所需的交互次数逐渐降低,同时学习过程中的干扰效率逐渐提升。在预测策略研究方面:(1)利用干扰策略值函数曲线单调递增的特点,提出了一种基于单调三次样条插值的干扰策略学习算法,通过非均匀插值的方式分别对值函数曲线进行预测,进而根据预测结果确定最优干扰策略。(2)为了克服插值点选择的难题,提出了一种基于值函数匹配的干扰策略学习算法,利用噪声分布特点事先构造值函数曲线库,然后利用少量样本点并结合正交匹配追踪方法预测真实曲线。(3)结合搜索策略的局部寻优能力以及预测策略的全局规划能力,提出了基于局部搜索和预测值函数的干扰策略学习算法。仿真实验表明,上述三种算法所需交互次数继续减少,该优势增强了强化学习理论在干扰策略学习中的实用性。(2)受到干扰后,为了恢复正常通信,敌方会通过增加功率、切换信道、改变调制样式等方式抵消干扰。此时,为了最大化干扰过程中的累积奖赏,需要学习不同环境状态与干扰动作之间的映射关系。(1)将干扰问题建模为马尔科夫决策过程后,提出了一种基于学徒学习的干扰策略学习算法,算法以干扰经验作为专家策略,以状态特征构造奖赏函数,通过学习特征权值的方式获得新的干扰策略,收敛所需的交互次数远少于常用的Q学习算法。(2)当敌方采用认知无线电技术动态选择接入信道时,提出了一种基于学徒学习的认知无线电干扰策略学习算法,算法以认知用户选择信道的历史记录作为专家策略,利用提出的8种特征表征状态值函数,实现对敌方信道选择策略的预测。仿真实验表明,所提算法能够取得更优的干扰效果。(3)在持续受到干扰后,敌方还会通过改变网络路由的方式规避干扰,此时,仅干扰网络中的单个节点不足以实现通信拒止的目的。(1)为了完成对目标网络的干扰,提出了一种基于改进CUCB算法的多节点干扰策略学习算法,算法采用合理的信度分配方式,利用UCB算法更新节点奖赏信息,通过干扰奖赏值更高的节点实现干扰效果最大化。(2)为了进一步提升网络干扰效果,从网络节点间的相关性出发,提出了一种基于节点相关性的多节点干扰策略学习算法。算法通过构造节点相关性矩阵的方式指导干扰节点选择,并利用交互获得的奖赏对矩阵进行更新。仿真实验表明,提出的两种多节点干扰策略学习算法具有更优的干扰效果以及环境鲁棒性,同时也验证了本文提出的新的网络层奖赏标准的有效性。(4)由于敌方特定通信目标常采用自适应调零天线等手段抵消干扰,此时单部干扰机已无法实现有效干扰,需要多干扰机协同干扰。(1)当多部干扰机之间存在控制中心时,由该中心利用现有的搜索或预测算法学习干扰策略并向受控干扰机分配干扰任务;(2)当多部干扰机以组网方式连接时,提出了基于公约的多干扰机协同干扰策略,在公约约束下,随着交互的进行,各干扰机分工也逐渐明确。(3)当多部干扰机之间因受干扰而无法通信时,提出了一种基于自信心的多干扰机协同干扰策略,干扰机根据各自的干扰行为以及环境反馈更新自信心值,并以该值指导后续干扰行为。仿真实验表明,经过少量次数交互后,以上三种协同干扰策略均能实现对目标信号的有效干扰,具有较高的干扰机利用率。本文研究了不同干扰任务下,应用强化学习理论进行通信干扰策略学习的问题,取得了一定的研究成果,为今后认知干扰的深入研究提供一定的参考价值。

白文飞[10](2018)在《轨道设备修理周期预测及全寿命周期修理决策优化模型研究》文中提出轨道是铁路、地铁的主要技术设备之一,是列车运行的基础。为了保持轨道设备状态良好,使列车按照规定速度安全、平稳地运行,并尽量延长设备的使用寿命,目前我国轨道设备管理部门主要采取“周期修”和“故障修”的模式对其进行修理。但客运列车的高速化以及货运列车的重载化,对轨道设备的技术状态提出了更高的要求。同时,路网规模的不断扩大,设备使用年限的不断增加,使得轨道设备的修理费用快速增长。因此,轨道设备的修理模式正逐步由“周期修”和“故障修”向“预防修”转变。实现这种转变,需要管理者对轨道设备健康状态劣化规律更准确地感知、轨道设备修理周期更精准地预测以及轨道设备修理决策更合理地优化。本文围绕轨道设备的预防修,对轨道设备修理周期预测和修理决策优化两个方面的问题进行了研究,分别构建了轨道设备修理周期个性化预测模型和轨道设备全寿命周期修理决策优化模型,具体内容如下:(1)构建了基于包含异质性因素的离散状态威布尔分布(Heterogeneity Factors Discrete State Weibull Distribution,HFDS-Weibull)的轨道设备修理周期个性化预测模型。模型针对轨道设备劣化的异质性、不确定性、多阶段性和联动性,在将线性、连续、长大的轨道设备划分成多个设备单元以及将设备单元的劣化过程划分成多个阶段的基础上,以单个设备单元的每个劣化阶段为研究对象,量化赋值了异质性因素,并利用HFDS-Weibull方法个性化地描述了每个设备单元每个劣化阶段的劣化规律,实现了各类异质性因素对轨道设备劣化过程影响程度以及在不同阶段影响程度变化情况的定量分析,并个性化地预测了不同空间位置处轨道设备的修理周期。作者利用北京地铁小半径曲线钢轨2004年9月到2015年9月11年的磨耗历史检测数据和异质性因素数据对模型的有效性进行了验证,结果表明:模型在同时考虑设备劣化异质性、不确定性、多阶段性和联动性影响的情况下,预测精度能够辅助管理者在高时空分辨率下准确分析设备的修理需求,可为轨道设备的预防修提供决策支持。(2)构建了基于自适应学习马尔科夫决策过程(Adaptive Learning Markov Decision Process,AL-MDP)的设备级别全寿命周期修理决策优化模型。模型针对单个设备的全寿命周期修理决策优化,在划分设备单元的基础上,以单个设备单元对建模对象,采用设备级别MDP状态转移概率矩阵描述了设备单元状态的劣化过程,考虑了轨道设备劣化异质性和不确定性的影响。同时,通过在模型中设置基于HFDS-Weibull方法的自适应学习机制,使得模型能够在每个决策时刻根据最新的状态数据更新MDP状态转移概率矩阵,实现模型对劣化过程的自适应学习。最后,模型以包含检测成本、修理成本以及剩余价值等的全寿命周期成本最小为目标,以状态为约束,利用基于动态规划(Dynamic Programming,DP)的逆向归纳值迭代算法,求解了设备单元全寿命周期的最优修理决策。作者以北京地铁2号线下行里程为K11+913.705~K12+084.605的小半径曲线钢轨单元为例,在利用蒙特卡罗方法对其状态进行模拟的基础上,分别利用本文提出的设备级别AL-MDP模型和既有的缺少自适应学习机制的设备级别MDP模型对其进行了规划周期为10年的修理决策优化,并将优化结果进行了对比分析,结果表明:本文提出的设备级别AL-MDP模型相对于MDP模型能够有效提高设备单元修理决策的质量,在保障安全的情况下,能够更有效地节省修理成本。(3)构建了基于AL-MDP的网络级别全寿命周期修理决策优化模型。模型针对设备网络的全寿命周期修理决策优化,以包含多种设备类型多个设备单元的设备网络为建模对象,采用网络级别MDP状态转移概率矩阵描述了网络状态的变化过程,考虑了网络状态变化不确定性的影响。同时,通过在模型中设置基于MLE方法的自适应学习机制,使得模型能够在每个决策时刻根据网络最新的状态数据更新MDP状态转移概率矩阵,实现模型对网络状态变化过程的自适应学习.。最后,模型为网络中每个设备单元在每个决策时刻可选择的任意一种修理活动设置0-1变量,并将该0-1变量作为模型的决策变量,以包含设备网络的检测成本、修理成本以及剩余价值等的全寿命周期成本最小为目标,在网络状态、修理预算以及状态转移等网络约束条件下,利用基于LP(LinearProgramming)的混合整数线性规划算法,求解了网络的全寿命周期最优特定设备策略。作者以北京地铁156条小半径曲线钢轨组成的设备网络为例,在利用蒙特卡罗方法对网络状态进行模拟的基础上,分别利用本文提出的网络级别AL-MDP模型和既有的缺少自适应学习机制的网络级别MDP模型进行了规划周期为10年的修理决策优化,并将优化结果进行了对比分析,结果充分说明了本文提出的网络级别AL-MDP模型相对于MDP模型在修理决策的优越性和实用性上所具有的优势。

二、有限规划水平自适应Markov决策过程的参数决策(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、有限规划水平自适应Markov决策过程的参数决策(论文提纲范文)

(2)基于马尔科夫决策过程的城市轨道交通轨道不平顺修理决策优化技术研究(论文提纲范文)

致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
        1.2.1 轨道不平顺修理决策优化研究现状
        1.2.2 基于马尔科夫决策过程的设备修理决策优化研究现状
    1.3 对于城市轨道交通既有研究中存在的主要问题
    1.4 论文的主要研究内容和组织架构
        1.4.1 论文主要研究内容
        1.4.2 论文组织结构
2 城市轨道交通轨道不平顺修理决策现状及需求分析
    2.1 轨道不平顺概念
        2.1.1 轨道不平顺的定义
        2.1.2 轨道不平顺的分类
    2.2 轨道不平顺的检查活动及修理活动
        2.2.1 轨道不平顺检查活动
        2.2.2 轨道不平顺修理活动
    2.3 城市轨道交通轨道不平顺修理决策依据和需求
        2.3.1 决策依据
        2.3.2 现有的问题
        2.3.3 决策需求
    2.4 本章小结
3 基于MDP的城市轨道交通轨道不平顺修理决策优化模型构建
    3.1 问题描述
    3.2 马尔科夫决策过程原理及其适用性分析
        3.2.1 马尔科夫过程
        3.2.2 马尔科夫决策过程
        3.2.3 适用性分析
    3.3 建模思路
        3.3.1 采用MDP方法针对一条线路制定修理决策
        3.3.2 考虑轨道不平顺状态劣化的不确定性
        3.3.3 考虑轨道不平顺状态劣化的异质性
        3.3.4 考虑对轨道不平顺状态劣化的自适应学习
        3.3.5 动态优化修理决策
    3.4 参数说明
    3.5 模型构建
        3.5.1 目标函数
        3.5.2 约束条件
    3.6 模型求解算法
    3.7 本章小结
4 案例分析
    4.1 应用场景描述及数据准备
        4.1.1 应用场景描述
        4.1.2 数据准备
    4.2 模型求解
    4.3 结果分析
        4.3.1 初始决策时刻最优修理策略
        4.3.2 与实际成本的对比分析
    4.4 本章小结
5 北京地铁轨道不平顺修理决策优化子系统的设计与开发
    5.1 北京地铁轨道智能运维管理信息系统简介
    5.2 北京地铁轨道不平顺修理决策优化子系统设计
        5.2.1 功能设计
        5.2.2 数据库设计
    5.3 北京地铁轨道不平顺修理决策优化子系统实现
    5.4 应用效果分析
    5.5 本章小结
6 结论与展望
    6.1 研究结论
    6.2 研究展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

(3)认知无线电自组织网络中的中继传输关键技术研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 引言
    1.2 国内外研究现状
        1.2.1 中继节点选择技术
        1.2.2 认知无线信道决策技术
        1.2.3 数据传输技术
        1.2.4 信道交会技术
    1.3 研究目标
    1.4 主要研究工作
    1.5 本文组织结构
第二章 多中继节点选择优化方法研究
    2.1 引言
    2.2 动态规划基本概念
        2.2.1 基本术语
        2.2.2 重要特性
        2.2.3 算法原理
        2.2.4 求解步骤
        2.2.5 经典结构模型
    2.3 多中继选择决策模型研究
        2.3.1 网络模型
        2.3.2 网络状态转换概率
        2.3.3 最优能量消耗模型
    2.4 降低复杂度的技巧
        2.4.1 剪枝技术概述
        2.4.2 剪枝界的确立
        2.4.3 剪枝算法设计
        2.4.4 算法性能分析
    2.5 复杂度与准确度的平衡方法
        2.5.1 模拟退火思想
        2.5.2 对Metropolis准则的改进
        2.5.3 SPP_IPM平衡算法设计
        2.5.4 算法收敛性分析
    2.6 实验仿真及分析
    2.7 本章小结
第三章 基于MAB的自适应数据传输策略
    3.1 引言
    3.2 马尔可夫决策过程
        3.2.1 基本模型
        3.2.2 值函数定义
        3.2.3 最优策略求解方法
    3.3 机器学习中的MAB问题
        3.3.1 问题描述
        3.3.2 数学模型
        3.3.3 典型方案
    3.4 最佳信道选择策略
        3.4.1 系统模型
        3.4.2 上置信界函数
        3.4.3 信道置信度分析
        3.4.4 MAB-CQ信道选择算法
        3.4.5 算法性能对比
        3.4.6 实验仿真及分析
    3.5 包长自适应选择策略
        3.5.1 问题描述
        3.5.2 回报函数
        3.5.3 自适应算法设计
        3.5.4 实验仿真及分析
    3.6 本章小结
第四章 认知信道盲交会技术
    4.1 引言
    4.2 跳频序列构建的基本思想
        4.2.1 随机策略
        4.2.2 模时钟法
    4.3 同步网络中的跳频序列构建
        4.3.1 基本原理
        4.3.2 算法设计
        4.3.3 实验仿真与分析
    4.4 异步网络中的跳频序列构建
        4.4.1 基于正交序列的跳频算法
        4.4.2 基于Quorum系统的跳频算法
        4.4.3 周期堆叠的跳频算法设计
        4.4.4 实验仿真与分析
    4.5 本章小结
第五章 总结与展望
    5.1 论文工作总结
    5.2 创新点
    5.3 未来研究展望
致谢
参考文献
附录A 英文缩略词
附录B 博士研究生期间发表的学术论文
附录C 博士研究生期间参加的科研项目

(4)复杂场景下无人机侦察集群多模式任务规划方法研究(论文提纲范文)

摘要
Abstract
主要符号使用说明
第一章 绪论
    1.1 引言
    1.2 研究背景与问题提出
        1.2.1 无人机集群作战正在成为新型作战样式
        1.2.2 复杂场景任务规划流程
        1.2.3 复杂场景下无人机集群持续侦察面临的挑战
    1.3 研究意义
    1.4 研究现状综述与分析
        1.4.1 相关概念
        1.4.2 架构描述、建模及方案空间探索方法
        1.4.3 无人机集群侦察分类
        1.4.4 Markov决策过程及其扩展框架
        1.4.5 协作决策方法
        1.4.6 研究现状分析
    1.5 研究内容与创新点
        1.5.1 研究内容
        1.5.2 主要创新点
        1.5.3 组织结构
第二章 面向使命能力的架构方案空间探索
    2.1 问题引出
    2.2 OSoSA搜索问题框架
        2.2.1 OSoSA形式化定义
        2.2.2 OSoSA搜索问题
        2.2.3 OSoSA动态规划问题
    2.3 架构方案动态搜索算法
        2.3.1 决策指标
        2.3.2 GSDP
    2.4 理论分析
    2.5 仿真实验
        2.5.1 实验设置
        2.5.2 参数敏感性分析实验
        2.5.3 可扩展分析实验
    2.6 本章小结
第三章 中心互联式集群FB-VEMCP侦察任务规划
    3.1 问题引出
    3.2 中心互联式集群侦察问题描述
        3.2.1 物理环境模型
        3.2.2 侦察无人机模型
    3.3 基于MPOMDP的中心互联式集群侦察任务规划问题框架
    3.4 中心互联式在线任务规划算法
        3.4.1 FB-VEMCP
        3.4.2 VE-DC
    3.5 理论分析
    3.6 仿真实验
        3.6.1 可扩展性分析实验
        3.6.2 规划步长分析实验
    3.7 本章小结
第四章 分布固联式集群FB-SAMCP侦察任务规划
    4.1 问题引出
    4.2 分布固联式集群侦察问题描述
        4.2.1 物理环境模型
        4.2.2 侦察无人机模型
    4.3 基于TD-POMDP的集群分布固联式侦察问题框架
    4.4 分布固联式在线规划算法
    4.5 理论分析
    4.6 仿真实验
        4.6.1 实验设置
        4.6.2 实验结果与分析
    4.7 本章小结
第五章 分布适变式集群DGAMCP侦察任务规划
    5.1 问题引出
    5.2 未知环境下集群侦察问题描述
    5.3 基于BA-TD-POMDP的集群侦察任务规划问题框架
    5.4 未知环境下集群在线学习与规划算法
        5.4.1 在线学习算法
        5.4.2 在线规划算法
    5.5 理论分析
    5.6 仿真实验
        5.6.1 实验设置
        5.6.2 观测能力评估
        5.6.3 规划步长评估
        5.6.4 无人机数量评估
        5.6.5 实验分析
    5.7 本章小结
第六章 无人机侦察集群多模式任务规划综合应用
    6.1 问题陈述
        6.1.1 任务想定
        6.1.2 通用参数设置
        6.1.3 典型场景
        6.1.4 指标与算法
        6.1.5 实验计算流程
    6.2 架构方案空间探索实验
        6.2.1 架构潜在能力评估模型
        6.2.2 架构方案选取实验
    6.3 集群侦察任务规划实验
    6.4 本章小结
第七章 总结与展望
    7.1 论文主要贡献
    7.2 下一步工作展望
致谢
参考文献
作者在学期间取得的学术成果
附录A 部分可观蒙特卡洛树搜索算法
附录B 变量消元算法

(5)层级语义下情境适应的SWoT服务组合与选择机理(论文提纲范文)

创新点摘要
摘要
ABSTRACT
1 绪论
    1.1 研究背景和研究意义
    1.2 相关工作的国内外研究现状
        1.2.1 语义信息组织模型和语义信息系统模型
        1.2.2 服务情境决策规则自动生成方法的相关研究
        1.2.3 基于语义的服务组合和选择方法的相关研究
    1.3 主要研究内容
    1.4 论文的组织与结构
2 语义物联网的三层级语义服务结构化网络
    2.1 理论基础
        2.1.1 语义物联网服务的四面体层次体系结构
        2.1.2 语义物联网的适应性支撑框架
        2.1.3 Markov网络
        2.1.4 Markov逻辑网络
    2.2 语义物联网的三层级语义服务结构化网络
        2.2.1 感知元层
        2.2.2 语义对象层
        2.2.3 语义服务事件层
    2.3 基于Markov网的语义服务结构化网络的构建
        2.3.1 语义服务事件的Markov网
        2.3.2 结构化网络模型的构建与更新算法
    2.4 基于Markov逻辑网络的语义服务关系推理
        2.4.1 服务事件链接推理算法策略分析
        2.4.2 服务事件链接推理算法
    2.5 实验
    2.6 本章小结
3 语义服务的复杂自适应情境规则模式
    3.1 相关理论基础
        3.1.1 不可区分关系
        3.1.2 可分辨关系
    3.2 基于决策依赖度的约简处理
        3.2.1 决策信息系统等价类划分方法
        3.2.2 基于可分辨关系的依赖度的求解
        3.2.3 决策信息系统求核算法
        3.2.4 决策信息系统基于决策依赖度的约简模型
    3.3 基于决策依赖度的规则提取
        3.3.1 决策信息系统的属性值约简
        3.3.2 求解重复对象集和冲突对象集的算法
        3.3.3 冗余规则的处理算法
        3.3.4 基于决策依赖度的规则提取模型
    3.4 实验
        3.4.1 基于决策依赖度的约简模型的性能分析
        3.4.2 基于决策依赖度的规则提取模型的性能分析
    3.5 本章小结
4 语义物联网服务智能组合与选择方法
    4.1 相关定义
    4.2 语义概念相似度的求解
    4.3 服务二分图的最佳语义匹配的求解
    4.4 基于语义匹配度和组合服务质量的Qos模型的求解
    4.5 语义物联网服务智能组合与选择算法
    4.6 实验
    4.7 本章小结
5 结论与展望
    5.1 论文总结
    5.2 研究展望
    附表
参考文献
作者简历及攻读博士学位期间的科研成果
致谢

(6)基于高斯过程回归的多水下滑翔机自适应采样路径规划(论文提纲范文)

摘要
ABSTRACT
字母注释表
第一章 绪论
    1.1 水下滑翔机研究现状
    1.2 多水下滑翔机海洋观测综合应用
        1.2.1 国内外大型海洋立体观测网
        1.2.2 多水下滑翔机独立观测水域实验
    1.3 多水下滑翔机自适应采样路径规划研究现状
    1.4 本文研究内容
第二章 水下滑翔机自适应采样路径规划
    2.1 路径规划方法概述
    2.2 水下滑翔机自适应采样路径规划框架
    2.3 高斯过程回归算法
        2.3.1 高斯过程回归原理
        2.3.2 常用的协方差核函数
        2.3.3 条件期望推导
        2.3.4 极大似然法
    2.4 基于信息论的采样点选择方法
        2.4.1 信息熵概述
        2.4.2 互信息准则
        2.4.3 极大熵准则
        2.4.4 标准差采样
    2.5 本章小结
第三章 基于GPR和标准差驱动的自适应采样路径规划
    3.1 自适应采样路径规划模型
        3.1.1 水下滑翔机在线采样
        3.1.2 模型建立与环境预测
        3.1.3 出水点轨迹规划
        3.1.4 观测状态判定
        3.1.5 评价指标
    3.2 异步出水策略的自适应采样数值仿真
    3.3 全覆盖采样规划算法仿真对比
    3.4 南海温度场环境仿真
    3.5 不规则形状观测区域
    3.6 本章小结
第四章 基于MDP行为决策的改进自适应采样路径规划
    4.1 马尔科夫决策过程概述
        4.1.1 MDP基本组成
        4.1.2 策略和值函数
    4.2 MDP自适应采样行为决策模型
        4.2.1 洋流影响下的状态转移
        4.2.2 基于标准差的报酬函数与值函数
        4.2.3 值函数求解
    4.3 洋流影响下的改进自适应采样仿真分析
        4.3.1 有无洋流的对比仿真
        4.3.2 不同洋流形式的自适应采样仿真
    4.4 多水下滑翔机不同位置和数量自适应采样
    4.5 本章小结
第五章 总结与展望
    5.1 全文总结
    5.2 展望
参考文献
发表论文和参加科研情况说明
致谢

(7)不确定环境下旱灾风险调控群决策方法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 相关研究与评述
        1.2.1 旱灾风险调控相关研究
        1.2.2 群决策理论与方法相关研究
        1.2.3 经验模态分解方法相关研究
        1.2.4 文献评述
    1.3 主要内容与论文结构
        1.3.1 主要内容
        1.3.2 论文结构
    1.4 主要创新点
第2章 旱灾风险调控群决策中的不确定性特征分析
    2.1 旱灾与旱灾风险
        2.1.1 旱灾
        2.1.2 旱灾风险
    2.2 旱灾风险调控群决策
        2.2.1 旱灾风险调控
        2.2.2 旱灾风险调控决策
        2.2.3 多参与主体的旱灾风险调控群决策
    2.3 旱灾风险调控群决策中的不确定性特征
        2.3.1 旱灾风险系统自身的不确定性
        2.3.2 群决策信息的不确定性
        2.3.3 决策过程与方法的不确定性
    2.4 本章小结
第3章 群决策信息提取和集结的随机EMD方法
    3.1 传统群决策方法存在的问题
    3.2 经验模态分解方法基本原理
        3.2.1 方法概述
        3.2.2 基本原理
    3.3 基于随机EMD的群决策基本思想
        3.3.1 群决策信息序列的成分分析
        3.3.2 群决策信息序列的无序性分析
        3.3.3 基于随机EMD的群决策算法设计
    3.4 数值算例分析
    3.5 本章小结
第4章 不确定语言信息下旱灾风险调控群决策方法
    4.1 决策问题与方法基础
        4.1.1 决策问题描述
        4.1.2 语言评估标度及相关概念
    4.2 决策方法原理
        4.2.1 多粒度语言信息一致化处理
        4.2.2 群决策语言信息LHA集结
        4.2.3 三参数区间灰数信息集结
        4.2.4 正态分布随机变量信息集结
        4.2.5 一般决策过程
    4.3 应用示例
    4.4 本章小结
第5章 不确定混合信息下旱灾风险调控群决策方法
    5.1 决策问题与信息预处理
        5.1.1 决策问题描述
        5.1.2 信息获取与预处理
    5.2 决策方法原理
        5.2.1 常用不确定决策信息表征
        5.2.2 不确定混合信息一致化处理
        5.2.3 不确定混合信息随机EMD集结
        5.2.4 不确定混合信息正态云集结
        5.2.5 一般决策过程
    5.3 应用示例
    5.4 本章小结
第6章 不确定随机动态旱灾风险调控群决策方法
    6.1 决策问题与方法基础
        6.1.1 决策问题描述
        6.1.2 决策方法基础
    6.2 决策方法原理
        6.2.1 群决策信息采集规则
        6.2.2 阶段群决策信息集结
        6.2.3 动态群决策信息集结
        6.2.4 一般决策过程
    6.3 应用示例
    6.4 本章小结
第7章 河南省农业旱灾风险调控群决策实证分析
    7.1 河南省农业干旱特点及灾害概况
    7.2 河南省农业旱灾脆弱性关键驱动因子识别
        7.2.1 河南省农业旱灾脆弱性驱动因子识别原理
        7.2.2 多元截面数据变化率灰色关联分析模型
        7.2.3 关键驱动因子识别结果与成因分析
    7.3 雨养农业区政策性农业保险产品择优投放群决策实证
        7.3.1 河南省农业保险与雨养农业区概况
        7.3.2 政策性农业保险产品择优投放群决策—以陕州区为例
        7.3.3 河南省雨养农业区加快发展农业保险的建议
    7.4 灌区小型农田水利设施管护模式优选群决策实证
        7.4.1 河南省灌区小型农田水利设施管理现状
        7.4.2 小型农田水利设施管护模式优选群决策—以滑县为例
        7.4.3 河南省灌区完善小型农田水利设施管理模式的建议
    7.5 本章小结
第8章 结论与展望
    8.1 结论
    8.2 展望
参考文献
致谢
附件
个人简历、在学期间取得的科研成果

(8)柔性机械臂点到点运动与轨迹跟踪的振动控制方法研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 柔性机械臂模型的研究现状
        1.2.1 柔性连杆建模理论
        1.2.2 离散化方法
    1.3 柔性机械臂振动控制的研究现状
        1.3.1 柔性机械臂控制的任务与目的
        1.3.2 控制方法与控制器类型
        1.3.3 前馈控制
        1.3.4 反馈控制
        1.3.5 无模型控制
        1.3.6 智能控制
        1.3.7 混合控制
    1.4 论文主要工作及组织结构
        1.4.1 论文主要工作
        1.4.2 论文组织结构
第二章 柔性机械臂动力学模型
    2.1 引述
    2.2 运动学描述
    2.3 能量方程
    2.4 柔性臂动力学方程
    2.5 特征运动问题
        2.5.1 初值条件和边界条件
        2.5.2 柔性臂运动形态
        2.5.3 频率方程与特征值
        2.5.4 正交性与解集
        2.5.5 离散化
    2.6 系统运动动力学模型
        2.6.1 多连杆模型
        2.6.2 单连杆模型
    2.7 基本属性与性质
    2.8 数值仿真结构与模型参数
    2.9 本章小结
第三章 频谱激励方法的残余振动控制
    3.1 问题阐述
    3.2 前馈振动控制方法
        3.2.1 因果滤波
        3.2.2 非因果滤波
        3.2.3 输入整形技术
        3.2.4 存在的问题
    3.3 时分激励与局域不变性
        3.3.1 时分激励性质
        3.3.2 局域不变性
        3.3.3 系统响应描述
    3.4 基于频谱激励的振动控制
        3.4.1 多模态的振动抑制
        3.4.2 多模态减振的鲁棒性
        3.4.3 频谱激励的规范
        3.4.4 带状振动抑制
    3.5 数值仿真
    3.6 本章小结
第四章 柔性随动方法的跟踪振动控制
    4.1 问题研究
    4.2 跟踪与调节反馈控制
        4.2.1 状态反馈控制
        4.2.2 PD控制器
        4.2.3 其它反馈控制
        4.2.4 存在的问题
    4.3 原理、方法与目的
        4.3.1 基本机理
        4.3.2 控制性质及目的
    4.4 系统响应描述
        4.4.1 物理系统
        4.4.2 动力学运动描述
    4.5 稳定性问题
    4.6 振动控制器设计
        4.6.1 控制系统设计
        4.6.2 PD控制律
        4.6.3 稳定性分析
    4.7 数值仿真
        4.7.1 滞后机制的振动避免
        4.7.2 超前型调节的振动避免
        4.7.3 完整跟踪的振动避免
    4.8 本章小结
第五章 最优跟踪控制Q学习的振动控制
    5.1 问题提出
        5.1.1 研究动机
        5.1.2 学习法跟踪减振
        5.1.3 研究内容组织安排
    5.2 二次型最优问题
        5.2.1 系统状态方程
        5.2.2 线性二次型最优控制
        5.2.3 LQT问题增广二次型
        5.2.4 动态规划决策
        5.2.5 Bellman方程
        5.2.6 策略评价和改进
        5.2.7 二次型问题的解
    5.3 LQT的增强学习法
        5.3.1 离线策略迭代算法
        5.3.2 在线策略迭代算法
    5.4 Q学习最优跟踪控制
        5.4.1 时序差分学习
        5.4.2 增广系统LQT的 Q函数
        5.4.3 LQT的Q学习算法设计
    5.5 数值仿真
        5.5.1 对象描述
        5.5.2 仿真结果分析
    5.6 本章小结
第六章 总结与展望
    6.1 本文研究工作总结
    6.2 相关研究工作展望
参考文献
致谢
攻读学位期间发表的学术论文目录
攻读学位期间参与的项目

(9)基于强化学习理论的通信干扰策略学习方法研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 课题研究的背景和意义
        1.1.1 夺取电磁频谱控制权已成为现代战争的首要任务
        1.1.2 新时代电子战发展呼唤认知干扰技术
    1.2 干扰技术研究现状
        1.2.1 当前干扰方法
        1.2.2 机器学习
        1.2.3 美军电子战发展状况
    1.3 目前通信干扰技术面临的问题
    1.4 论文的主要内容及文章结构
第二章 基础理论
    2.1 引言
    2.2 强化学习
        2.2.1 强化学习的概念
        2.2.2 强化学习主流算法
        2.2.3 强化学习的应用
    2.3 战场干扰模型
        2.3.1 物理层干扰模型
        2.3.2 网络层干扰模型
        2.3.3 多臂老虎机模型
        2.3.4 马尔科夫决策过程模型
    2.4 高阶调制信号
        2.4.1 调制解调过程
        2.4.2 信号的种类与特点
        2.4.3 星座图畸变
    2.5 干扰策略
        2.5.1 干扰策略的组成
        2.5.2 针对高阶调制信号的干扰策略
        2.5.3 干扰参数划分
        2.5.4 干扰策略学习时间
    2.6 奖赏标准
        2.6.1 物理层奖赏依据
        2.6.2 网络层奖赏依据
    2.7 本章小结
第三章 基于搜索的未知环境下干扰策略学习方法
    3.1 引言
    3.2 一种基于正交分解的通用最佳干扰样式
        3.2.1 不同环境下的最佳干扰样式
        3.2.2 仿真实验及结果分析
    3.3 基于正强化学习的干扰策略学习算法
        3.3.1 正强化学习
        3.3.2 算法步骤
        3.3.3 仿真实验及结果分析
    3.4 基于双层强化学习的干扰策略学习算法
        3.4.1 双层强化学习
        3.4.2 算法步骤
        3.4.3 仿真实验及结果分析
    3.5 基于局部搜索的干扰策略学习算法
        3.5.1 局部搜索
        3.5.2 算法步骤
        3.5.3 仿真实验及结果分析
    3.6 本章小结
第四章 基于预测的未知环境下干扰策略学习方法
    4.1 引言
    4.2 预测动作值函数
    4.3 基于单调三次样条插值的干扰策略学习算法
        4.3.1 样条插值
        4.3.2 算法步骤
        4.3.3 仿真实验及结果分析
    4.4 基于值函数匹配的干扰策略学习算法
        4.4.1 构造值函数
        4.4.2 算法步骤
        4.4.3 仿真实验及结果分析
    4.5 基于局部搜索与预测值函数的干扰策略学习算法
        4.5.1 算法步骤
        4.5.2 仿真实验及结果分析
    4.6 搜索方法与预测方法学习性能对比
    4.7 本章小结
第五章 基于学徒学习的干扰策略学习方法
    5.1 引言
    5.2 学徒学习
    5.3 基于专家经验的干扰策略学习算法
        5.3.1 动态变化的目标信号建模分析
        5.3.2 状态特征与干扰经验
        5.3.3 算法步骤
        5.3.4 仿真实验及结果分析
    5.4 基于认知用户信道选择策略的干扰策略学习算法
        5.4.1 空闲信道上的策略博弈
        5.4.2 信道特征
        5.4.3 算法步骤
        5.4.4 仿真实验及结果分析
    5.5 本章小结
第六章 未知拓扑无线自组网络多节点干扰策略学习方法
    6.1 引言
    6.2 战场无线自组网络
    6.3 基于改进CUCB算法的无线自组网络多节点干扰策略学习算法
        6.3.1 CUCB算法
        6.3.2 算法步骤
        6.3.3 仿真实验及结果分析
    6.4 基于节点相关性的无线自组网络多节点干扰策略学习算法
        6.4.1 节点相关性
        6.4.2 算法步骤
        6.4.3 仿真实验及结果分析
    6.5 本章小结
第七章 多干扰机协同干扰策略学习方法
    7.1 引言
    7.2 基于多臂老虎机模型的多干扰机协同干扰策略学习方法
        7.2.1 基于局部搜索和预测值函数的多干扰机协同干扰策略
        7.2.2 基于公约的多干扰机协同干扰策略
        7.2.3 基于自信心的多干扰机协同干扰策略
        7.2.4 仿真实验及结果分析
    7.3 本章小结
第八章 总结与展望
    8.1 全文总结
    8.2 下一步工作展望
致谢
参考文献
作者在学期间取得的学术成果
附录A 美军电子战项目汇总
附录B 美军电子战相关报告

(10)轨道设备修理周期预测及全寿命周期修理决策优化模型研究(论文提纲范文)

致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景及问题提出
    1.2 主要研究内容
    1.3 研究意义
    1.4 论文组织结构
    1.5 论文资助
2 国内外研究综述
    2.1 轨道设备劣化特征分析研究综述
        2.1.1 研究现状
        2.1.2 既有研究总结及对本文研究的借鉴
    2.2 轨道设备修理周期预测研究综述
        2.2.1 基于病害机理分析的预测模型
        2.2.2 基于失效统计分析的预测模型
        2.2.3 既有研究总结及对本文研究的借鉴
    2.3 轨道设备修理决策优化研究综述
        2.3.1 以修理成本为目标的决策优化模型
        2.3.2 以设备状态为目标的决策优化模型
        2.3.3 以轨道占用时间为目标的决策优化模型
        2.3.4 既有研究总结及对本文研究的借鉴
    2.4 基于MDP的基础设施修理决策优化研究综述
        2.4.1 设备级别MDP优化模型
        2.4.2 网络级别MDP优化模型
        2.4.3 既有研究总结及对本文研究的借鉴
    2.5 本章小结
3 基于HFDS-WEIBULL的轨道设备修理周期个性化预测模型
    3.1 建模思路
    3.2 参数声明
    3.3 模型构建
        3.3.1 设备单元状态的寿命分布
        3.3.2 异质性因素影响程度分析
        3.3.3 修理周期预测
    3.4 模型参数估计
        3.4.1 检测数据截取
        3.4.2 最大似然估计
    3.5 案例分析
        3.5.1 数据源
        3.5.2 参数估计结果与异质性因素影响程度分析
        3.5.3 修理周期预测结果与误差分析
    3.6 本章小结
4 基于AL-MDP的设备级别全寿命周期修理决策优化模型
    4.1 建模思路
    4.2 参数声明
    4.3 模型构建
        4.3.1 决策变量
        4.3.2 目标函数
        4.3.3 约束条件
        4.3.4 自适应学习机制
    4.4 模型求解
        4.4.1 策略和值函数
        4.4.2 逆向归纳值迭代算法
    4.5 案例分析
        4.5.1 数据源
        4.5.2 初始决策时刻的状态转移概率矩阵与最优策略
        4.5.3 设备级别MDP与AL-MDP决策优化结果对比分析
    4.6 本章小结
5 基于AL-MDP的网络级别全寿命周期修理决策优化模型
    5.1 建模思路
    5.2 参数说明
    5.3 模型构建
        5.3.1 决策变量
        5.3.2 目标函数
        5.3.3 约束条件
        5.3.4 自适应学习机制
    5.4 模型求解
    5.5 案例分析
        5.5.1 数据源
        5.5.2 初始决策时刻的状态转移概率与最优特定设备策略
        5.5.3 网络级别MDP与AL-MDP决策优化结果对比分析
    5.6 本章小结
6 结论
    6.1 主要研究工作
    6.2 主要创新点
    6.3 研究展望
参考文献
作者简历及攻读博士学位期间取得的研究成果
学位论文数据集

四、有限规划水平自适应Markov决策过程的参数决策(论文参考文献)

  • [1]现代优化理论与应用[J]. 邓琪,高建军,葛冬冬,何斯迈,江波,李晓澄,王子卓,杨超林,叶荫宇. 中国科学:数学, 2020(07)
  • [2]基于马尔科夫决策过程的城市轨道交通轨道不平顺修理决策优化技术研究[D]. 赵扬. 北京交通大学, 2020(03)
  • [3]认知无线电自组织网络中的中继传输关键技术研究[D]. 陈春梅. 中国工程物理研究院, 2020(01)
  • [4]复杂场景下无人机侦察集群多模式任务规划方法研究[D]. 周鑫. 国防科技大学, 2019(01)
  • [5]层级语义下情境适应的SWoT服务组合与选择机理[D]. 陈鑫影. 大连海事大学, 2019(07)
  • [6]基于高斯过程回归的多水下滑翔机自适应采样路径规划[D]. 焉台郎. 天津大学, 2019(01)
  • [7]不确定环境下旱灾风险调控群决策方法研究[D]. 李海涛. 华北水利水电大学, 2019
  • [8]柔性机械臂点到点运动与轨迹跟踪的振动控制方法研究[D]. 章闻曦. 上海交通大学, 2019(06)
  • [9]基于强化学习理论的通信干扰策略学习方法研究[D]. 颛孙少帅. 国防科技大学, 2019(01)
  • [10]轨道设备修理周期预测及全寿命周期修理决策优化模型研究[D]. 白文飞. 北京交通大学, 2018(01)

标签:;  ;  ;  ;  ;  

有限规划的水平自适应马尔可夫决策过程的参数决策
下载Doc文档

猜你喜欢