在智能城市系统中,无人机可作为辅助移动设备进行相关数据收集,但实际环境所带来的动态性极大地影响着无人机的效能。基于此,本文考虑了一个较为复杂的3D动态环境,并在深度强化学习技术框架的基础上提出一种基于无人机电量约束、路径长度最小化算法。算法考虑实际场景中会遇到的自身电量问题,以及在物联网节点间的调度问题,确保无人机能在电量供应安全的前提下以较短的路径长度完成数据采集工作。特别地,为了应对动态环境下突发障碍物移动问题,提出信息增强的概念,以降低移动障碍物带来的路径不确定性。相关仿真结果表明,训练之后的无人机可以在保证自身电量安全的情况下自适应地调节策略,有效地解决障碍物突发移动问题,并以更短的路径完成整个数据收集任务。
引用格式
张薇, 何若俊. 面向物联网数据收集的无人机自主路径规划[J]. 航空学报, 2024, 45(8): 329054.
点击以下标题下载论文全文
面向物联网数据收集的无人机自主路径规划.pdf
01
研究背景
随着第五代移动通信技术的迅速发展,新兴技术在为人们的日常生活提供便利的同时,也为未来通信行业的研究与发展带来了前所未有的挑战。而物联网作为未来网络中备受瞩目的技术,其可以在任何时间、任何地点、任何互联模式下实现大量异构终端系统的无缝集成,而无需人工过多进行干预。作为物联网的重要组成部分,无线传感器网络主要负责将监测区域内所部署的传感器单元建立无线连接。通过对传感器所收集到的数据进行分析汇总,从而最终可以实现对周围环境状况的全面健康监测。然而,鉴于传感器节点能量的有限性,位于基站较远距离的传感器节点可能因为传输距离过长而耗费大量能量,最终导致能量枯竭并进入死亡状态。
而无人机具有机动性和良好的视距传输特性,其可以通过强视距通道来对意外事件进行快速响应和及时部署,从而实现比传统地面基站更好的性能。将无人机技术与通信网络相结合可以为通信领域提供远距离而可靠的视距传输。但是,尽管无人机自身搭载的各种机载传感器可帮助其实现良好的导航和目标定位能力,如何在无人机任务执行期间规划出可靠且安全的飞行路径仍然是一项艰巨的任务。特别是在复杂地形环境,如高山山岳地带或密集程度较高的城市低空空域内,无人机极易发生碰撞事件。此外,由于受自身机载电池容量的限制,无人机需要在尽可能短的时间内完成既定任务。因此,本文以物联网数据采集为背景,解决无人机在具体数据收集过程中所面临的自主路径规划问题。
02
研究亮点
1)平均奖励曲线
为了验证所提出算法的有效性,将所提出算法与原始算法、TD3算法、随机策略算法进行对比。无人机在任务出发前的初始电量为10000J。四种算法的平均训练奖励曲线如图1所示。从图1中可以观察到,除随机策略外所有算法最后均达到收敛状态,这说明仅靠试错的方法无法完成数据收集任务,所得奖励也最少,无人机需要学习到正确的策略才能完成整个任务。根据图1的局部放大示意图可以看出,所提出算法具有更快的收敛速度和更稳定的表现过程,其在1600轮次就已稳定收敛,且得到较高的奖励。而与之对应的是TD3算法和MCDDPG算法在1800轮次才逐渐收敛,且奖励低于所提出的MCDDPG-EPM算法。这是因为相较于MCDDPG算法,所提出算法增加了增强信息。利用增强信息,算法可以较快地帮助无人机规避行进路途中的障碍物,提高任务完成度。
为进一步描述所提出算法在物联网节点数增加时也具有更好的性能,为此这里增加了物联网节点数并重新进行训练。训练后的3种强化学习算法对于任务完成度的效果示意图如图2所示。从图2可以看出,训练完成后的算法和MCDDPG算法都能出色地完成数据收集任务,奖励值较高。与之相反的是,TD3算法无法完成数据收集任务(奖励值逐渐升高后降低,最后与随机策略得到的奖励值相近),这是因为TD3算法在更新网络途中始终使用两个评论家网络中较小的值进行更新,忽略了自身网络个体学习到的策略,最后导致一旦任务需求量激增,网络就不能学习到正确策略。
2)平均路径长度曲线
为了验证所提出算法经过一定轮次的训练之后在对应的数据收集任务中拥有最短的路径长度,加入ACO和A*算法2种表现性能较好的传统路径规划方法作为对比。
同时,为了评估增强信息是否让无人机可以提前感知到环境信息的变化,这里加入原始MCDDPG算法进行对比。平均路径长度与迭代轮次曲线如图3所示。
从仿真实验可以看出,两种强化学习算法在平均路径长度上都经历了上升到下降的共同趋势。这是因为训练开始之初,无人机还未学习到正确的飞行策略,从而导致与障碍物相撞或没有收集完所有物联网产生的数据就电量耗尽,路径长度较短。随着与环境的不断交互,无人机开始逐渐完成任务,路径长度逐渐变长。在达到一定的训练轮次后,无人机开始优化自身学习策略,路径长度又由长逐渐变短,最后达到收敛。
为了评估无人机能否在不同的初始电量下做出不同的访问决策,图4的(a)和(b)分别刻画了初始电量为5000J和10000J时的全局路径图,图中标注的罗马数字代表无人机对应的访问顺序。由图4的(a)可以看出,由于初始电量较少,无人机需要在任务执行期间两次访问充电站并避免行进途中与障碍物相撞。同时,对比传统A*算法的全局路径可以发现,A*算法大多采用冒险激进的策略,即紧贴障碍物前行。虽然这种策略能够在一定程度上减少任务完成时的路径总长度,但随之带来的是危险的激增。
图4(b)刻画了初始电量为10000J时的全局路径规划情况。可以看出,由于任务开始前拥有较充足的电量,无人机在整个任务执行期间仅用访问充电站一次。此外,3种强化学习算法在经过训练后均能完成数据采集任务,并且无人机能够自主针对实时电量情况做出合适的动作选择。对比TD3算法、MCDDPG算法和A*算法,所提出的MCDDPG-EPM算法在整体路径规划、任务完成路径总长度上都具有较好的表现。
为了测试经过训练之后的无人机是否也能在未知场景中具有良好的泛化能力,下面将针对不同场景分别对训练之后的无人机进行性能评估。测试过程中考虑了2种典型场景:场景1仅仅存在静态障碍物;场景2包静态和动态障碍物。
1)无人机能耗曲线
图5展示了测试环境下(场景1)无人机自身消耗电量与物联网节点(Internet of Things, IoT)数量之间的关系。
从图5中可以观察到,4种算法所对应的无人机电量消耗均随着物联网节点数的增加而增多。当物联网节点数为10时,除TD3算法外其他3种算法具有类似的能量消耗。这是因为从起始位置到第一个物联网簇节点之间存在着较少障碍物,4种算法都能以较小步幅到达该节点。但随着物联网节点数的增加,本文所提MCDDPG-EPM算法的平均消耗电量均少于TD3算法和2种传统算法,这是因为无人机可以提前感知到环境信息的变化,提前做好路径规划。特别地,当物联网节点数为20时,MCDDPG-EPM算法较TD3算法、传统A*算法和ACO算法分别节省了11.8%、13.2%和15.1%的电量消耗。
2)无人机路径长度曲线
图6展示了测试环境下(场景1)无人机行驶路径总长度与物联网节点数量之间的关系。
从图6中可以观察到,3种算法所对应的路径长度均随着物联网节点的增多而呈现增加的趋势。但与其他2种算法相比,MCDDPG-EPM算法所用路径最短。虽然传统A*算法和ACO算法也有不错的表现,但这2种算法都太过依赖于完整的环境状态信息,一旦任务执行过程中环境有稍微的改变,其都有可能导致整个任务失败。
此外,A*算法假定无人机在任意时刻都能以任意角度调整机身方向,这在真实场景中难以做到。特别地,当物联网设备节点数为20时,所提出算法较A*算法和ACO算法分别节省了8.4%和11.7%的路程。这说明无人机在整个任务期间进行了合理的路径规划。
3)动态环境下的无人机全局路径规划
本节主要针对环境中存在移动障碍物的情况,测试经过训练后的无人机能否在未知动态环境中避开障碍物且顺利完成数据采集任务。由于实际环境的未知性,无人机在飞行途中可能会遇到移动物体的威胁。这里假定移动障碍物的大小尺寸均与静态障碍物大小尺寸相同,且整个任务执行期间移动障碍物以5m/s的速度进行匀速行驶;当移动障碍物移动到任务空间的边缘位置时便立即改变方向,并一直持续重复这个过程。
图7(a)和(b)分别给出了环境中存在移动障碍物和无移动障碍物时无人机整体的轨迹路线图。图7(a)中假定环境中存在两个移动障碍物。在时刻t=14.6 s,无人机移动到图中标记的实心天蓝色区域,障碍物1正朝上做匀速运动,位置如图7(a)中天蓝色矩形区域所示。由于MCDDPG-EPM算法增加了增强信息,使得无人机可以提前感知到障碍物正远离自己,但上方区域已无安全行驶路线,故无人机选择调转方向,向下飞行。在时刻t=27 s,移动障碍物2移动到图7(a)中深绿色矩形区域,运动方向朝下;无人机移动到实心深绿色区域。此时,无人机感知到障碍物2正向下运动,但距离自身位置还有一段距离,因此无人机选择以较大的时间步幅,加快规避障碍物。图7(b)显示了无动态障碍物时无人机的行进路线。对比图7(a)和(b)可以看出,无人机确实能够在动态环境中感知到障碍物的相对变化趋势。
03
研究结论
1)针对传统数据采集任务奖励稀疏的问题,提出了一种新的奖励构造机制,使得无人机能够较快地学习到相应策略并顺利完成数据采集工作。
2)针对动态环境中的不确定性,引入了增强信息来帮助无人机提前感知到环境信息的变化,从而做好对应路径的提前规划。
3)设计了一种基于无人机电量约束、路径最小化的多评论家深度确定性策略梯度算法,实验结果表明所提出算法相较于原始MCDDPG、TD3算法具有更快的收敛效果和较好的稳定性,训练完成后的算法可以应用到不同场景当中,体现了强化学习算法在数据收集任务中的巨大潜力。