郝晴,黃浩,趙海濤,談?dòng)詈疲齑?/P>
(南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003)
0 引言
無人機(jī)(UAV,Unmanned Aerial Vehicle)由于具有高度的靈活性,在貨物運(yùn)輸、空中視頻流、虛擬現(xiàn)實(shí)以及增強(qiáng)現(xiàn)實(shí)等領(lǐng)域得到了廣泛的應(yīng)用。通過將無人機(jī)與地面基站(GBS,Ground Base Station)進(jìn)行深度整合,蜂窩連接無人機(jī)能夠高效地進(jìn)行智能網(wǎng)絡(luò)控制和數(shù)據(jù)處理。此外,蜂窩連接無人機(jī)還能夠?qū)崿F(xiàn)密集的蜂窩通信覆蓋,從而滿足通信網(wǎng)絡(luò)服務(wù)需求。首先,對(duì)于無人機(jī)輔助的蜂窩通信系統(tǒng),無人機(jī)可以充當(dāng)中繼進(jìn)行通信連接。例如,在地面基站出現(xiàn)故障時(shí),可以快速部署無人機(jī)為地面用戶提供緊急通信支持[1-4]。其次,對(duì)于蜂窩網(wǎng)絡(luò)支持的無人機(jī)系統(tǒng),無人機(jī)可以通過與地面基站保持通信來完成飛行任務(wù)。考慮到無人機(jī)的高機(jī)動(dòng)性和高速飛行,以及無人機(jī)與地面用戶之間大量的數(shù)據(jù)傳輸活動(dòng),建立高質(zhì)量的空地通信連接是至關(guān)重要的[5]。
然而,由于無人機(jī)通常由電池為其電機(jī)以及機(jī)載電子設(shè)備進(jìn)行供電,無人機(jī)的飛行時(shí)間是相當(dāng)有限的[6]。為了保證無人機(jī)與地面基站穩(wěn)定和持續(xù)的通信連接,以及無人機(jī)飛行任務(wù)的可靠完成,必須研究高能效的蜂窩連接無人機(jī)系統(tǒng)。本文考慮無人機(jī)在任務(wù)執(zhí)行過程中飛行能耗的最小化問題,其中無人機(jī)從隨機(jī)的初始位置飛行到固定的目的地以完成任務(wù)。在保證飛行過程中與蜂窩網(wǎng)絡(luò)保持可靠通信連接的情況下,通過優(yōu)化無人機(jī)的飛行路徑來最小化無人機(jī)的能量消耗。
本文提出了一種基于無線電地圖重構(gòu)的路徑規(guī)劃方法,無線電地圖通過對(duì)小尺度信道衰落及其誘導(dǎo)效應(yīng)進(jìn)行平均,從而能夠描述目標(biāo)區(qū)域內(nèi)空間和頻率上的頻譜活動(dòng)以及傳輸信道的信息[7]。本文提出了一種新的無線電地圖重構(gòu)方法,無人機(jī)首先對(duì)無線環(huán)境進(jìn)行稀疏采樣,進(jìn)而基于采樣得到的數(shù)據(jù)對(duì)無線電地圖進(jìn)行重構(gòu),即能估計(jì)出目標(biāo)區(qū)域中所有位置的中斷概率,從而大大降低無人機(jī)地圖采樣的開銷。進(jìn)一步地,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)(DRL,Deep Reinforcement Learning)的路徑規(guī)劃算法。利用重構(gòu)得到的無線電地圖,無人機(jī)在目標(biāo)區(qū)域內(nèi)多次飛行,在此過程中利用DRL 得到最優(yōu)的路徑規(guī)劃策略,從而提高無人機(jī)任務(wù)執(zhí)行的效率,減少無人機(jī)飛行時(shí)間和能耗。
1 相關(guān)研究工作
為了解決無人機(jī)路徑規(guī)劃復(fù)雜度高的問題,已有基于深度強(qiáng)化學(xué)習(xí)和無線電地圖的無人機(jī)路徑規(guī)劃方法研究。在聯(lián)合優(yōu)化無人機(jī)的最短飛行路徑,并最大化從地面設(shè)備收集的數(shù)據(jù)量問題上,文獻(xiàn)[8]提出了一種無人機(jī)輔助的物聯(lián)網(wǎng)架構(gòu),并利用基于DRL 的算法得到無人機(jī)的最優(yōu)路徑和吞吐量。為了避開障礙物,文獻(xiàn)[9]利用深度確定性策略梯度(DDPG,Deep,Deterministic,Policy Gradient)算法,使無人機(jī)可以獨(dú)立進(jìn)行決策。提出了連通面積和威脅函數(shù)的概念,并將其應(yīng)用于DRL 的獎(jiǎng)勵(lì)中。在基于DRL 的路徑規(guī)劃算法上,文獻(xiàn)[10]利用優(yōu)先級(jí)經(jīng)驗(yàn)回放(PER,Prioritized Experience Replay)加速訓(xùn)練過程。通過關(guān)注系統(tǒng)的狀態(tài),無人機(jī)選擇最佳飛行方向,從而最大限度地為用戶提供服務(wù),文獻(xiàn)[11]通過最大化覆蓋用戶數(shù)并最小化無人機(jī)能耗來進(jìn)行路徑規(guī)劃。在考慮多架無人機(jī)沿不同路徑在目標(biāo)空域內(nèi)飛行并為地面用戶設(shè)備提供服務(wù)的場景下,文獻(xiàn)[12]提出了一種基于多智能體DRL 的路徑規(guī)劃算法,對(duì)每架無人機(jī)的路徑進(jìn)行獨(dú)立管理,目標(biāo)是優(yōu)化每架無人機(jī)的地理公平性、用戶容量的公平性和用戶的總能耗。在最大化地面用戶平均傳輸速率為目標(biāo)下,文獻(xiàn)[13]提出了一種基于多智能體深度Q 學(xué)習(xí)(MADQL,Multiagent Deep Reinforcement Learning)的算法,從而解決路徑規(guī)劃和信道分配聯(lián)合優(yōu)化問題。在基于密集部署的無人機(jī)的以內(nèi)容為中心的無線傳輸網(wǎng)絡(luò)場景中,文獻(xiàn)[14]通過部署大規(guī)模的無人機(jī)來將緩存的內(nèi)容傳輸?shù)诫S機(jī)分布的地面客戶端,并提出了一種路徑規(guī)劃和通信調(diào)度聯(lián)合優(yōu)化方法,采用動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)控制策略。針對(duì)多無人機(jī)通信系統(tǒng),文獻(xiàn)[15]提出了一種新的路徑規(guī)劃和資源分配聯(lián)合優(yōu)化方法,該方法采用多智能體DRL 算法進(jìn)行分布式部署,不需要事先知道網(wǎng)絡(luò)的動(dòng)態(tài)特性。然而,上述文獻(xiàn)并未涉及到利用重構(gòu)得到的無線電地圖進(jìn)行無人機(jī)路徑規(guī)劃,以及在UAV-GBS 通信約束下進(jìn)行無人機(jī)的能效優(yōu)化。
2 系統(tǒng)模型
系統(tǒng)中包括一個(gè)無人機(jī)以及多個(gè)地面蜂窩基站,無人機(jī)在目標(biāo)空域中飛行,基站則為無人機(jī)提供通信服務(wù)。假設(shè)無人機(jī)的飛行區(qū)域?yàn)榱⒎襟w,表示為 [x1,x2]×[y1,y2]×[z1,z2],其中1 和2 分別表示區(qū)域的下邊界和上邊界。無人機(jī)的任務(wù)是基于無線電地圖,從一個(gè)隨機(jī)的初始位置飛行到固定的最終位置。系統(tǒng)模型如圖1 所示:

圖1 系統(tǒng)模型
無人機(jī)在t時(shí)刻的位置表示為l(t),0 ≤t≤T,分別用lI和lF表示無人機(jī)的初始位置和最終位置,于是有l(wèi)(0)=lI,l(t)=lF。假設(shè)目標(biāo)區(qū)域內(nèi)共有C個(gè)蜂窩基站,用hc(t),1≤c≤C表示t時(shí)刻從基站c到無人機(jī)的等效信道增益,因此無人機(jī)在t時(shí)刻從基站c接收到的信號(hào)功率表示為:
其中Pc表示基站c的發(fā)射功率,為固定值;βc(·) 和Gc(·)分別表示基站c的大尺度信道增益和天線增益;隨機(jī)變量(t)表示小尺度衰落。用c′(t) ∈ {1,...,C}表示在t時(shí)刻與無人機(jī)連接的蜂窩基站。當(dāng)無人機(jī)的接收信干比(SIR,Signal to Interference Ratio)小于閾值γth,即S IR(t)<γth,則判斷無人機(jī)與蜂窩網(wǎng)絡(luò)的連接處于中斷狀態(tài)。無人機(jī)在t時(shí)刻的接收信干比表示為:
由于小規(guī)模衰落的隨機(jī)性,在t時(shí)刻時(shí),對(duì)于任意無人機(jī)位置和與無人機(jī)關(guān)聯(lián)的蜂窩,接收信干比是一個(gè)隨機(jī)數(shù),所以中斷概率是l(t)和c′(t)的函數(shù),表示為:
根據(jù)無人機(jī)的中斷概率,可以得到任務(wù)執(zhí)行過程中的中斷時(shí)間為:
設(shè)無人機(jī)的時(shí)間成本為任務(wù)完成時(shí)間和中斷時(shí)間的加權(quán)和,即:
其中,α和β分別表示無人機(jī)總?cè)蝿?wù)完成時(shí)間和總?cè)蝿?wù)完成時(shí)間內(nèi)的中斷時(shí)間權(quán)重。由于要求無人機(jī)在飛行過程中與基站保持良好的通信質(zhì)量,所以將β定義為一個(gè)數(shù)值較大的常數(shù),從而保證與基站穩(wěn)定的通信連接。
無人機(jī)在任務(wù)執(zhí)行過程中的能量消耗通常包含飛行推進(jìn)能耗和通信能耗。由于無人機(jī)的通信能耗比推進(jìn)能耗小得多,所以本文只考慮無人機(jī)的推進(jìn)能耗。固定翼無人機(jī)的推進(jìn)能量可以表示為[16]:
其中,c1和c2是與空氣密度、無人機(jī)重量以及機(jī)翼面積等有關(guān)的固定參數(shù);v(t)和a(t)分別表示無人機(jī)在t時(shí)刻的速度和加速度;g=9.8 m/s2為重力加速度。因此,無人機(jī)的飛行能耗取決于其速度和加速度。在本文中,假設(shè)無人機(jī)勻速飛行,加速度為0,因此無人機(jī)的推進(jìn)功率為[17]:
推進(jìn)能量可以進(jìn)一步表示為:
在無線電地圖重構(gòu)過程中,無人機(jī)首先從實(shí)際環(huán)境中稀疏采樣,并計(jì)算采樣點(diǎn)中斷概率,最后對(duì)目標(biāo)區(qū)域無線電地圖進(jìn)行重構(gòu)恢復(fù)。假設(shè)無人機(jī)首先在目標(biāo)空域隨機(jī)采樣N個(gè)數(shù)據(jù)點(diǎn),記為xi(i=1,2,3…,N)。將稀疏采樣后得到的無線電地圖表示為y0,稱為等待重構(gòu)的退化的圖像。隨后,無人機(jī)基于y0重構(gòu)無線電地圖。將無線電地圖重構(gòu)表示為誤差最小化優(yōu)化問題,表示為:
新課程標(biāo)準(zhǔn)明確指出,讀是小學(xué)語文教學(xué)的重要任務(wù),有感情地朗讀課文能夠使學(xué)生受到情感的熏陶,這也是語文學(xué)習(xí)的重中之重。課堂教學(xué)是開展教學(xué)工作的主要場所,教師應(yīng)結(jié)合誦讀內(nèi)容,采取豐富的教學(xué)形式,指導(dǎo)學(xué)生進(jìn)行有感情誦讀,不斷提升學(xué)生的誦讀能力。
其中e(·) 為與重構(gòu)有關(guān)的數(shù)據(jù)項(xiàng),y表示重構(gòu)的無線電地圖。R(y) 是一個(gè)正則化項(xiàng),用以表示自然圖像上的一般先驗(yàn)。地圖重構(gòu)的目標(biāo)是找到問題(9)的最優(yōu)解y*。在本文中,用神經(jīng)網(wǎng)絡(luò)隱含的先驗(yàn)信息代替正則化函數(shù),用神經(jīng)網(wǎng)絡(luò)fθ(·) 映射代替待重構(gòu)的地圖y,即:
優(yōu)化變量θ*可以通過參數(shù)隨機(jī)初始化的隨機(jī)梯度下降來求得。其中,z是一個(gè)固定的包含32 個(gè)特征圖的三維張量,其空間大小與y相同;網(wǎng)絡(luò)的輸入是隨機(jī)初始化的z;θ是網(wǎng)絡(luò)參數(shù),通過訓(xùn)練得到最優(yōu)值。得到最優(yōu)參數(shù)θ后,輸入z得到最優(yōu)的y,然后得到重構(gòu)的無線電地圖。
為了求得最優(yōu)的無人機(jī)飛行路徑,無人機(jī)在滿足良好的UAV-GBS 連接質(zhì)量的約束前提下,最小化任務(wù)執(zhí)行過程中的飛行能耗,于是優(yōu)化問題可以表示為:
由于優(yōu)化問題的非凸性和較大的搜索空間,傳統(tǒng)的優(yōu)化方法很難得到最優(yōu)解。為了求解該問題,在下一節(jié)中提出了一種基于地圖重構(gòu)的深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃方法。
3 基于地圖重構(gòu)的深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃方法
在本節(jié)中,首先提出了基于深度圖像先驗(yàn)(DIP,Deep Image Prior)的地圖重構(gòu)算法。隨后基于重構(gòu)地圖利用D3QN 算法進(jìn)行路徑規(guī)劃。無人機(jī)通過嘗試不同的動(dòng)作(action),從反饋(reward)中學(xué)習(xí),然后加強(qiáng)動(dòng)作,直到動(dòng)作產(chǎn)生最佳的反饋。本文所提出的基于地圖重構(gòu)的深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃方法流程如圖2 所示。

圖2 DIPRMR-D3QN路徑規(guī)劃方法流程圖
3.1 基于深度圖像先驗(yàn)的地圖重構(gòu)算法
卷積神經(jīng)網(wǎng)絡(luò)在圖像重構(gòu)方面具有較好的性能,它通過從大量的訓(xùn)練樣本中進(jìn)行學(xué)習(xí)來逼近原圖像。然而,生成器網(wǎng)絡(luò)在未經(jīng)學(xué)習(xí)的情況下也能包含大量的低級(jí)圖像信息,即生成器網(wǎng)絡(luò)具有先驗(yàn)特性,不需要訓(xùn)練集和未損壞的原始圖像并訓(xùn)練,只需要通過一張待重構(gòu)的退化圖像作為輸入,便可以對(duì)其進(jìn)行恢復(fù)。在此基礎(chǔ)上,本文提出了一種基于深度圖像先驗(yàn)的無線電地圖重構(gòu)(DIPRMR,Deep Image Prior based Radio Map Reconstruction)算法。待重構(gòu)的無線電地圖定義為R∈Cm×n,即:
在DIPRMR 算法中,低分辨的輸入圖像為無人機(jī)采樣得到的稀疏無線電地圖。將采樣倍率(需重構(gòu)的地圖的長和寬上像素點(diǎn)數(shù)量減少的倍數(shù))定義為s,于是采樣得到的地圖表示為y0∈R(m/s)×(n/s)。將重構(gòu)倍率(重構(gòu)后的地圖像素點(diǎn)數(shù)量與重構(gòu)前的比值)定義為u,則重構(gòu)得到的地圖y表示為y∈Ru(m/s)×u(n/s)。因此,重構(gòu)任務(wù)中的數(shù)據(jù)項(xiàng)為:
其中d(·) :y∈ Ru×(m/s)×u×(n/s)→y0∈R(m/s)×(n/s)將 圖像大小 調(diào)整為(m/s) ×(n/s)。最后,通過迭代求解找到重構(gòu)后與低分辨圖像y0相似的高分辨圖像y,即:
算法具體步驟如算法1 所示。
算法1 基于深度圖像先驗(yàn)的地圖重構(gòu)算法(DIPRMR)
3.2 基于D3QN的無人機(jī)路徑規(guī)劃方法
在本文所考慮場景中,無人機(jī)的路徑規(guī)劃問題可以表示為一個(gè)馬爾可夫決策過程(MDP,Markov Decision Process)。用一個(gè)四元組變量表示MDP:狀態(tài)S,動(dòng)作A,狀態(tài)轉(zhuǎn)移概率P和反饋R。其中,狀態(tài)空間包含了無人機(jī)在給定飛行區(qū)域內(nèi)的所有可能的位置;動(dòng)作空間A包含無人機(jī)的飛行方向;狀態(tài)轉(zhuǎn)移概率P根據(jù)當(dāng)前狀態(tài)和后續(xù)飛行方向確定;反饋函數(shù)R定義為,其中μ是無人機(jī)在停機(jī)時(shí)產(chǎn)生的懲罰,設(shè)置為一個(gè)較大的常數(shù)。算法具體步驟如算法2 所示。
算法2 基于D3QN 的無人機(jī)在線路徑規(guī)劃方法(DIPRMR-D3QN)
不同于傳統(tǒng)方法,算法2 中無人機(jī)不需要直接與環(huán)境交互,而是在無人機(jī)執(zhí)行任務(wù)前就重建一個(gè)與實(shí)際環(huán)境高度吻合的無線電地圖。在強(qiáng)化學(xué)習(xí)中,智能體直接從無線電地圖中提取數(shù)據(jù),獲得經(jīng)驗(yàn)中斷概率,從而獲得反饋值,利用訓(xùn)練數(shù)據(jù)調(diào)整無人機(jī)的飛行路徑。
由于該問題中的狀態(tài)空間和動(dòng)作空間是連續(xù)的,本文在保持狀態(tài)空間連續(xù)的同時(shí),將動(dòng)作空間A離散為四個(gè)飛行方向,即。動(dòng)作空間的離散化使得動(dòng)作值函數(shù)的狀態(tài)輸入是連續(xù)的,動(dòng)作輸出是離散的。本文采用Dueling Double DQN(D3QN)網(wǎng)絡(luò)架構(gòu)。在每一集的每一步中,將無人機(jī)的狀態(tài),即無人機(jī)的當(dāng)前位置設(shè)置為神經(jīng)網(wǎng)絡(luò)的輸入,輸出為無人機(jī)的飛行方向。最終基于訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò),無人機(jī)能夠根據(jù)無線電地圖,在任意位置選擇出最佳飛行方向,從而完成路徑規(guī)劃。
4 仿真結(jié)果與分析
在本節(jié)中,對(duì)所提出的算法進(jìn)行仿真實(shí)驗(yàn)。考慮一個(gè)2 km×2 km 包含高層建筑的區(qū)域。假設(shè)在該區(qū)域內(nèi)部署了2 個(gè)GBS,其天線高度設(shè)為25 m。為了計(jì)算無人機(jī)從每個(gè)基站接收到的信號(hào)強(qiáng)度,首先根據(jù)建筑遮擋情況判斷無人機(jī)與每個(gè)BS 之間是否存在LoS 鏈路,然后計(jì)算UAV-GBS 的路徑損耗。為了準(zhǔn)確模擬給定環(huán)境下的UAV-GBS 信道,基于國際電信聯(lián)盟(ITU)提出的統(tǒng)計(jì)模型來生成建筑物的位置和高度。假設(shè)建筑物覆蓋的土地面積占總土地面積的比例αbd=0.3;單位面積建筑的平均數(shù)βbd=300;建筑高度分布的參量γbd=50 m,且建筑高度不超過90 m。將與基站的連通性權(quán)重設(shè)置為一個(gè)較大的值,以保證無人機(jī)與地面良好的通信連接。最后,假設(shè)該區(qū)域的每個(gè)維度上有201 個(gè)數(shù)據(jù)點(diǎn),即m=n=201。因此數(shù)據(jù)點(diǎn)總數(shù)為201×201。
圖3 比較了采樣倍率分別為s=2,4,8,16 時(shí)基于DIPRMR 重構(gòu)得到的地圖(分別用DIP2、DIP4、DIP8 和DIP16 表示)和s=4 時(shí)基于球面變異函數(shù)模型的Kriging 算法重構(gòu)得到的地圖(用SPH4 表示)的峰值信噪比(PSNR,Peak Signal to Noise Ratio)。結(jié)果表明PSNR 隨著采樣倍率的增加而降低。采樣倍率相同時(shí),DIPRMR 算法重構(gòu)的無線電地圖的PSNR 明顯高于Kriging 算法。因此,與Kriging 算法相比,本文所提方法能夠達(dá)到更好的地圖重構(gòu)效果,且采樣點(diǎn)越多,重構(gòu)效果越好。

圖3 不同采樣倍率下重構(gòu)地圖的峰值信噪比
圖4 比較了不同采樣倍率下,基于不同重構(gòu)方法得到的地圖飛行的平均中斷概率與實(shí)際平均中斷概率的歸一化均方誤差(NMSE)。結(jié)果表明NMSE 隨著采樣倍率的增加而增加。并且,在相同采樣倍率下,所提出的DIPRMR 重構(gòu)算法的NMSE 最小。因此,本文所提方法較對(duì)比算法而言,能夠更加準(zhǔn)確地還原實(shí)際環(huán)境中的中斷概率分布情況,并且采樣點(diǎn)越多,重構(gòu)得到的地圖與原地圖的誤差越小。

圖4 不同采樣倍率下各重構(gòu)方法平均中斷概率與實(shí)際值的NMSE
圖5 比較了不同采樣倍率和重構(gòu)方法下無人機(jī)到達(dá)目的地的每條路徑的總中斷時(shí)間,單位為秒(s)。結(jié)果表明,在本文所提方法下無人機(jī)成功到達(dá)目的地的中斷時(shí)間與重構(gòu)的無線電地圖密切相關(guān),中斷時(shí)間隨著采樣倍率的增加而增加。在采樣倍率相同時(shí),基于DIPRMR算法重構(gòu)的無線電地圖訓(xùn)練的無人機(jī)軌跡的中斷時(shí)間比Kriging 算法短。因此,由本文所提方法重構(gòu)得到的無線電地圖能夠更加準(zhǔn)確地反映真實(shí)的無線環(huán)境,從而使得無人機(jī)在飛行中能夠與基站保持更好的通信連接。

圖5 不同采樣倍率下無人機(jī)到達(dá)目的地的總中斷時(shí)間
圖6 為通過D3QN 算法得到的無人機(jī)路徑。其中對(duì)比了無人機(jī)在基于無線電地圖情況下的飛行路徑(圖6(a))和在實(shí)際環(huán)境直接飛行的飛行路徑(圖6(b))。結(jié)果表明,兩種訓(xùn)練情況下的路徑趨勢是一致的。在選擇路徑時(shí),無人機(jī)往往會(huì)經(jīng)由通信覆蓋率大的區(qū)域到達(dá)目的地,并且?guī)缀醪焕速M(fèi)步數(shù)。因此,本文所提地圖重構(gòu)方法能夠使得無人機(jī)學(xué)得接近最優(yōu)的路徑,并保持與蜂窩基站的良好連接,降低飛行能耗。

圖6 D3QN算法下無人機(jī)基于重構(gòu)地圖的飛行路徑與直接飛行路徑比較
5 結(jié)束語
本文研究了無線電地圖重構(gòu)以及基于重構(gòu)的地圖進(jìn)行無人機(jī)路徑規(guī)劃的問題。考慮到無人機(jī)在任務(wù)執(zhí)行過程中復(fù)雜的城市通信環(huán)境,無人機(jī)通過所提的DIPRMR算法重構(gòu)無線電地圖,進(jìn)而基于D3QN 算法學(xué)習(xí)最優(yōu)路徑規(guī)劃策略,從而在保證任務(wù)期間與相關(guān)基站可靠連接的情況下,最小化總飛行能耗。為了克服傳統(tǒng)的基于優(yōu)化的路徑規(guī)劃方法的局限性,本文提出了基于DRL 的路徑規(guī)劃算法,該算法只需要無人機(jī)的信號(hào)測量作為輸入。仿真結(jié)果表明,無人機(jī)可以基于重構(gòu)的無線電地圖進(jìn)行路徑規(guī)劃,從而提高了無人機(jī)的工作效率并降低執(zhí)行任務(wù)的復(fù)雜度。本文提出的基于DIP 的地圖重構(gòu)算法能夠有效還原實(shí)際環(huán)境的中斷概率情況。并且,基于DIPRMRD3QN 算法,無人機(jī)能夠降低飛行能耗,并且保持與地面基站的可靠通信連接。