本發(fā)明屬于通信對(duì)抗,特別是一種基于transformer(全自注意力網(wǎng)絡(luò))和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法及系統(tǒng)。
背景技術(shù):
1、無線通信在軍事領(lǐng)域的情報(bào)傳遞、戰(zhàn)場(chǎng)指揮等多個(gè)方面發(fā)揮了重要作用,如何在作戰(zhàn)時(shí)干擾敵方通信對(duì)于取得戰(zhàn)場(chǎng)勝利有著舉足輕重的影響。但隨著跳頻通信、直接擴(kuò)頻通信、自適應(yīng)技術(shù)和抗干擾通信技術(shù)的發(fā)展,特別是認(rèn)知無線電技術(shù)的使用,干擾敵方通信變得愈加困難。
2、對(duì)于這種情況,一種簡(jiǎn)單的方法是使用大功率噪聲對(duì)頻段進(jìn)行壓制干擾。但這種干擾方法不僅會(huì)消耗大量能量,還會(huì)損害己方通信。在現(xiàn)實(shí)環(huán)境中,己方需要進(jìn)行實(shí)時(shí)、高質(zhì)量通信,可用于干擾的能量也有限。因此,找到對(duì)敵方通信的低功耗、精確、智能、自適應(yīng)干擾策略已經(jīng)迫在眉睫。
3、傳統(tǒng)的干擾方法基于博弈論,最優(yōu)化理論等理論技術(shù)尋找最優(yōu)參數(shù)進(jìn)行干擾,但這些研究依賴于通信方和環(huán)境的先驗(yàn)信息。在缺乏先驗(yàn)信息的場(chǎng)景中,這些理論并不適用。目前,更多學(xué)者使用強(qiáng)化學(xué)習(xí)來學(xué)習(xí)通信干擾策略。例如,有學(xué)者提出了基于多臂老虎機(jī)框架的干擾強(qiáng)盜算法(gb),能夠找到最優(yōu)的物理層參數(shù)進(jìn)行攻擊。還有學(xué)者提出使用正交分解來實(shí)現(xiàn)不同的干擾樣式,并在訓(xùn)練過程中不斷優(yōu)化干擾動(dòng)作選擇區(qū)域的智能干擾算法(ib)。但這些干擾方法仍存在以下缺陷:
4、(1)研究對(duì)象局限于bpsk和qpsk,16qam等調(diào)制樣式,因此通過學(xué)習(xí)得到的干擾策略很可能不是最優(yōu)的;
5、(2)未考慮干擾方功率消耗問題,當(dāng)干擾方能夠發(fā)射的功率較小時(shí)會(huì)對(duì)干擾效果產(chǎn)生影響。
6、(3)基于強(qiáng)化學(xué)習(xí)的干擾方法只能針對(duì)一種狀態(tài)進(jìn)行訓(xùn)練,當(dāng)敵方改變調(diào)制信號(hào)時(shí),需要重新尋找最佳干擾參數(shù),該類算法并不適用于實(shí)際中快速變化的環(huán)境。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法及系統(tǒng),解決目前通信干擾技術(shù)只能對(duì)少數(shù)調(diào)制樣式進(jìn)行干擾,無法依據(jù)環(huán)境改變智能地調(diào)整干擾策略的問題。
2、實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為:一種基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,包括以下步驟:
3、步驟1、建立通信干擾系統(tǒng)模型,確定通信干擾流程,并確定需要被干擾的通信方調(diào)制樣式和干擾方采用的干擾調(diào)制樣式;
4、步驟2、采用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)干擾決策,選用全自注意力網(wǎng)絡(luò)即transformer作為深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),ddqn作為深度學(xué)習(xí)算法;
5、步驟3、依據(jù)通信信號(hào)和干擾信號(hào)特點(diǎn),定義深度強(qiáng)化學(xué)習(xí)所需的狀態(tài)和動(dòng)作空間;
6、步驟4、依據(jù)干擾效果和干擾信號(hào)功耗設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù);
7、步驟5、構(gòu)建基于transformer?encoder的q網(wǎng)絡(luò),使用1層transformer?encoder和2層fc構(gòu)成q網(wǎng)絡(luò),其中encoder表示編碼器,fc表示全連接層;
8、步驟6、在開始訓(xùn)練q網(wǎng)絡(luò)前,為每一通信調(diào)制樣式建立無效干擾列表,用于記錄干擾無效的干擾調(diào)制樣式;
9、步驟7、基于ddqn對(duì)q網(wǎng)絡(luò)進(jìn)行訓(xùn)練,每一輪隨機(jī)選取一個(gè)狀態(tài)進(jìn)行訓(xùn)練,直到達(dá)到指定的訓(xùn)練輪數(shù);
10、步驟8、采用訓(xùn)練好的q網(wǎng)絡(luò)進(jìn)行認(rèn)知通信干擾。
11、一種基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾系統(tǒng),該系統(tǒng)用于實(shí)現(xiàn)所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,所述系統(tǒng)包括通信干擾系統(tǒng)模型構(gòu)建模塊、干擾決策模塊、狀態(tài)和動(dòng)作空間定義模塊、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)模塊、網(wǎng)絡(luò)構(gòu)建模塊、無效干擾列表建立模塊、訓(xùn)練模塊和通信干擾模塊,其中:
12、通信干擾系統(tǒng)模型構(gòu)建模塊,建立通信干擾系統(tǒng)模型,確定通信干擾流程,并確定需要被干擾的通信方調(diào)制樣式和干擾方采用的干擾調(diào)制樣式;
13、干擾決策模塊,采用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)干擾決策,選用全自注意力網(wǎng)絡(luò)即transformer作為深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),ddqn作為深度學(xué)習(xí)算法;
14、狀態(tài)和動(dòng)作空間定義模塊,依據(jù)通信信號(hào)和干擾信號(hào)特點(diǎn),定義深度強(qiáng)化學(xué)習(xí)所需的狀態(tài)和動(dòng)作空間;
15、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)模塊,依據(jù)干擾效果和干擾信號(hào)功耗設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù);
16、網(wǎng)絡(luò)構(gòu)建模塊,構(gòu)建基于transformer?encoder的q網(wǎng)絡(luò),使用1層transformerencoder和2層fc構(gòu)成q網(wǎng)絡(luò),其中encoder表示編碼器,fc表示全連接層;
17、無效干擾列表建立模塊,在開始訓(xùn)練q網(wǎng)絡(luò)前,為每一通信調(diào)制樣式建立無效干擾列表,用于記錄干擾無效的干擾調(diào)制樣式;
18、訓(xùn)練模塊,基于ddqn對(duì)q網(wǎng)絡(luò)進(jìn)行訓(xùn)練,每一輪隨機(jī)選取一個(gè)狀態(tài)進(jìn)行訓(xùn)練,直到達(dá)到指定的訓(xùn)練輪數(shù);
19、通信干擾模塊,采用訓(xùn)練好的q網(wǎng)絡(luò)進(jìn)行認(rèn)知通信干擾。
20、一種移動(dòng)終端,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法。
21、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)為:
22、(1)本發(fā)明對(duì)19種調(diào)制樣式的干擾策略進(jìn)行研究,研究范圍比之前研究更廣,能夠有效學(xué)習(xí)對(duì)每種調(diào)制樣式的干擾策略。
23、(2)本發(fā)明設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)將干擾方功耗考慮在內(nèi),使得算法學(xué)習(xí)到的干擾策略能夠以低功耗成功干擾通信方通信。
24、(3)本發(fā)明設(shè)計(jì)的算法能夠?qū)Χ喾N狀態(tài)進(jìn)行訓(xùn)練,能夠有效應(yīng)對(duì)通信方改變調(diào)制信號(hào)的情況,適用于變化環(huán)境。
1.一種基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,步驟1中,建立通信干擾系統(tǒng)模型,具體如下:
3.根據(jù)權(quán)利要求2所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,步驟1中,確定需要被干擾的通信方調(diào)制樣式和干擾方采用的干擾調(diào)制樣式,具體如下:
4.根據(jù)權(quán)利要求3所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,步驟3中,依據(jù)通信信號(hào)和干擾信號(hào)特點(diǎn),定義深度強(qiáng)化學(xué)習(xí)所需的狀態(tài)和動(dòng)作空間,具體如下:
5.根據(jù)權(quán)利要求4所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,步驟4中,依據(jù)干擾效果和干擾信號(hào)功耗設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),具體如下:
6.根據(jù)權(quán)利要求5所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,步驟5中,構(gòu)建基于transformer?encoder的q網(wǎng)絡(luò),使用1層transformer?encoder和2層fc構(gòu)成q網(wǎng)絡(luò),具體如下:
7.根據(jù)權(quán)利要求6所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,步驟6中,無效干擾列表的建立過程具體如下:
8.根據(jù)權(quán)利要求7所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,其特征在于,步驟7中,基于ddqn對(duì)q網(wǎng)絡(luò)進(jìn)行訓(xùn)練,具體如下:
9.一種基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾系統(tǒng),其特征在于,該系統(tǒng)用于實(shí)現(xiàn)權(quán)利要求1~8任一項(xiàng)所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法,所述系統(tǒng)包括通信干擾系統(tǒng)模型構(gòu)建模塊、干擾決策模塊、狀態(tài)和動(dòng)作空間定義模塊、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)模塊、網(wǎng)絡(luò)構(gòu)建模塊、無效干擾列表建立模塊、訓(xùn)練模塊和通信干擾模塊,其中:
10.一種移動(dòng)終端,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~8任一項(xiàng)所述的基于transformer和深度強(qiáng)化學(xué)習(xí)的認(rèn)知通信干擾方法。