2020年高級經(jīng)濟師農(nóng)業(yè)經(jīng)濟專業(yè)論文:隨機森林垃圾郵件檢測算法
關鍵詞:垃圾郵件、隨機森林、合成少數(shù)類過采樣技術
引言
電子郵件是使用率最高的網(wǎng)絡應用之一,是人們通過網(wǎng)絡交流溝通的重要工具。但是,垃圾郵件作為正常郵件的附屬產(chǎn)物,已經(jīng)嚴重影響到國家、企業(yè)和以及個人之間的網(wǎng)絡通訊與安全,甚至造成嚴重的經(jīng)濟損失?,F(xiàn)在,越來越多的學者將分類預測技術應用于垃圾郵件識別,如陳龍等提出了一種基于支持向量機的自適應性分類器,并應用于用于檢測垃圾郵件[1]。劉潔等提出基于改進互信息的加權樸素貝葉斯算法以提高垃圾郵件識別的精確度和召回率[2]。本文提出了一種結合SMOTE和隨機森林的算法,并應用于垃圾郵件檢測,以提高垃圾郵件的識別率。
基于SMOTE和隨機森林的垃圾郵件識別算法
垃圾郵件檢測數(shù)據(jù)往往是不平衡數(shù)據(jù),即數(shù)據(jù)集中的正常郵件和垃圾郵件的數(shù)量是不均衡的。針對此問題,本文提出了基于合成少數(shù)類過采樣技術(SMOTE)[3]和隨機森林集成學習算法[4]的RF-smote算法。算法主要分兩步,首先應用SMOTE算法對少數(shù)類別的垃圾郵件樣本進行分析和新樣本合成,將生成的新樣本添加到數(shù)據(jù)集中,消除正常郵件和垃圾郵件樣本數(shù)量的不平衡。然后,應用隨機森林集成學習算法,進行垃圾郵件識別。
SMOTE算法步驟如下:1.針對訓練數(shù)據(jù),采取最鄰近算法,計算出垃圾郵件樣本數(shù)據(jù)的K個近鄰;2.針對每個垃圾郵件樣本,與它K近鄰中隨機選擇一個的樣本,進行隨機線性插值;3.重復第2步,直至生成的新樣本個數(shù)達到合成比率要求。4.將新合成的樣本數(shù)據(jù)與原數(shù)據(jù)集合成,產(chǎn)生新的訓練集。隨機森林是一個包含多個決策樹的集成分類器。算法步驟如下:1.從SOMTE算法處理后的平衡訓練集中,通過有放回的重取樣來獲得N’個樣本作為生成決策樹的訓練集;2.如果每個樣本有M個特征,隨機選擇m(m
數(shù)據(jù)集與評價準則
實驗選擇UCI數(shù)據(jù)集合Spambase,該數(shù)據(jù)集包含58個屬性和4601個實例,主要用來研究對垃圾郵件的分類檢測。該數(shù)據(jù)集合是一個不平衡數(shù)據(jù)集合,包含兩個類別:垃圾郵件(1813個實例),正常郵件(2788個實例)。實驗評估采用準確率(ACC)、檢測率(DR)和精確率(PR)三種方法衡量算法的性能。準確率定義如公式(1),表示正確識別正常郵件和垃圾郵件的實例數(shù)與全體實例數(shù)的比值。公式1-3中,TP表示垃圾郵件的預測實例數(shù),TN表示正常郵件預測實例數(shù),F(xiàn)P表示正常郵件錯誤的判定為垃圾郵件的實例數(shù),F(xiàn)N表示垃圾郵件判定為正常郵件的實例數(shù)。
實驗與分析
實驗基于WEKA[5]平臺進行,RF-smote在檢測垃圾郵件前對數(shù)據(jù)集合Spambase中的垃圾郵件樣本進行了SMOTE合成,使用的最近鄰設置為5,合成率設置為50%,隨機森林算法中決策樹數(shù)目設置為10。RF-smote算法應用的合成數(shù)據(jù)中,垃圾郵件實例數(shù)為2719,正常郵件數(shù)為2788,基本變?yōu)槠胶鈹?shù)據(jù)。實驗評估采用十折交叉驗證進行,實驗數(shù)據(jù)如表1所示。從表1可以看出,本文提出的算法RF-smote在準確率、檢測率和精確率性能指標上,均優(yōu)于未應用SMOTE時的算法RandomForenst(RF).在準確率指標上,RF-smote優(yōu)于RF0.8%。在檢測率指標上,RF-smote優(yōu)于RF3.8%。同樣,在精確率指標上,RF-smote優(yōu)于RF2.9%。因此,本文提出的算法RF-smote在垃圾郵件檢測方面展示出了良好的性能。5結束語本文應用SMOTE算法和隨機森林集成學習算法進行垃圾郵件識別,并在Spambase數(shù)據(jù)集上進行實驗,結果表明本文提出的算法性能表現(xiàn)良好。
參考文獻:
[1]陳龍,梁意文,譚成予.基于自適應性分類器的垃圾郵件檢測[J].計算機工程,2018,(5):194-200.
[2]劉潔,王錚,王輝.基于IMI-WNB算法的垃圾郵件過濾技術研究[J].計算機工程,2020,(6):1-7.
[3]NiteshV.SyntheticMinorityOver-samplingTechnique[J].JournalofArtificialInteliigenceResearch,2002,(16):321-357.
[4]袁梅宇.數(shù)據(jù)挖掘與機器學習-WEKA應用技術與實踐[M].北京:清華大學出版社,2014.
考生可點擊下方下載查看更多關于高級經(jīng)濟師論文的相關參考文檔,小編建議大家可提前填寫 免費預約短信提醒服務,屆時我們會及時提醒您2020年各地區(qū)高級經(jīng)濟師考試合格證書領取時間通知。
以上內(nèi)容是2020年高級經(jīng)濟師農(nóng)業(yè)經(jīng)濟專業(yè)論文:隨機森林垃圾郵件檢測算法,小編為廣大考生上傳更多2020年高級經(jīng)濟師職稱評審參考文檔,可點擊“免費下載”按鈕后進入下載頁面。
最新資訊
- 26年高級經(jīng)濟師評審論文發(fā)表攻略:這些標準仔細核對,警惕無效發(fā)表2026-03-13
- 政策一年一變!2026年高級經(jīng)濟師,職稱論文怎么準備不踩坑?2026-03-03
- 人社局:26年高級經(jīng)濟師評審論文發(fā)表后網(wǎng)上如何檢索?步驟來了2026-02-26
- 2026年高級經(jīng)濟師職稱論文必須發(fā)知網(wǎng)?錯!這些刊物同樣有效!2026-02-25
- 適配26年!全國高級經(jīng)濟師職稱論文要求,附專業(yè)期刊推薦2026-02-12
- 高級經(jīng)濟師論文需要發(fā)在哪些期刊?2026備考生必看選刊策略2026-02-11
- 論文白發(fā)了?2026高級經(jīng)濟師評審新要求,多地拒收這類期刊2026-02-10
- 收藏!2026年高級經(jīng)濟師論文攻略,這3種高質(zhì)量論文結構直接套用2026-02-09
- 紅線預警!2026年高級經(jīng)濟師期刊論文新政策,發(fā)錯無效2026-02-06
- 政策收緊!2026年高級經(jīng)濟師,這4類論文不再作為評審依據(jù)2026-02-05