《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 設(shè)計(jì)應(yīng)用 > 藏文網(wǎng)絡(luò)敏感信息檢測(cè)研究
藏文網(wǎng)絡(luò)敏感信息檢測(cè)研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
吳瑜,嚴(yán)李強(qiáng),徐梓恒,卓瑪央金
西藏大學(xué)信息科學(xué)技術(shù)學(xué)院
摘要: 隨著互聯(lián)網(wǎng)的普及,藏文網(wǎng)絡(luò)空間也面臨著日益增多的敏感信息傳播風(fēng)險(xiǎn),給社會(huì)穩(wěn)定和國(guó)家安全帶來(lái)挑戰(zhàn)。傳統(tǒng)的敏感信息檢測(cè)方法難以有效應(yīng)對(duì)藏文語(yǔ)言的特殊性和網(wǎng)絡(luò)信息的復(fù)雜性。為了解決這一問(wèn)題,提出了一種基于CINO-DPCNN的混合神經(jīng)網(wǎng)絡(luò)模型。該模型結(jié)合了CINO模型對(duì)藏文語(yǔ)義的深層次理解和DPCNN模型對(duì)文本特征的高效提取能力,能夠更準(zhǔn)確地識(shí)別藏文網(wǎng)絡(luò)敏感信息。實(shí)驗(yàn)結(jié)果表明,CINO-DPCNN模型在準(zhǔn)確率、F1值等指標(biāo)方面取得了良好的結(jié)果,相較于現(xiàn)有模型有顯著提高。這為構(gòu)建安全、健康的藏文網(wǎng)絡(luò)環(huán)境提供了新的技術(shù)支撐,也為其他少數(shù)民族語(yǔ)言的敏感信息檢測(cè)提供了借鑒。
中圖分類號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.04.012
引用格式:吳瑜,嚴(yán)李強(qiáng),徐梓恒,等. 藏文網(wǎng)絡(luò)敏感信息檢測(cè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(4):79-83.
Research on sensitive information detection in Tibetan network
Wu Yu,Yan Liqiang,Xu Ziheng,Zhuoma Yangjin
School of Information Science and Technology, Tibet University,Lasa
Abstract: With the increasing popularity of the Internet, the Tibetan-language online space is facing growing risks of sensitive information dissemination, posing challenges to social stability and national security. Traditional methods for detecting sensitive information are unable to effectively address the unique characteristics of the Tibetan language and the complexity of online information. To address this issue, this paper proposes a hybrid neural network model based on CINO-DPCNN. This model combines the deep understanding of Tibetan semantics provided by the CINO model with the high-efficiency feature extraction capabilities of the DPCNN model, enabling more accurate identification of sensitive information in Tibetan-language online networks. The experimental results demonstrate that the CINO-DPCNN model has achieved excellent performance in terms of accuracy, F1 score, and other indicators, showing significant improvements over existing models. This provides new technical support for building a secure and healthy Tibetan-language online environment and serves as a reference for sensitive information detection in other minority languages.
Key words : Tibetan;sensitive information;CINO model;deep learning

引言

隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施和信息通信技術(shù)的提升,互聯(lián)網(wǎng)的規(guī)模迅速擴(kuò)大。根據(jù)2024年發(fā)布的第53次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,我國(guó)網(wǎng)民人數(shù)已達(dá)10.92億,互聯(lián)網(wǎng)普及率達(dá)到77.5%[1]。互聯(lián)網(wǎng)的發(fā)展帶來(lái)了信息傳播的便利,也帶來(lái)了信息安全和內(nèi)容監(jiān)管方面的挑戰(zhàn)。在西藏等少數(shù)民族地區(qū),這一挑戰(zhàn)尤為顯著。西藏地處中國(guó)的邊疆地區(qū),擁有悠久的歷史和豐富的文化遺產(chǎn),同時(shí)也面臨著綜合治理的重大挑戰(zhàn)。網(wǎng)絡(luò)上發(fā)布的敏感信息,其中包含惡意攻擊和歧視性語(yǔ)言等,嚴(yán)重侵犯了個(gè)人權(quán)利和尊嚴(yán),導(dǎo)致個(gè)體心理、價(jià)值觀和行為規(guī)范的扭曲。此外,虛假新聞或謠言的泛濫可能會(huì)破壞社會(huì)信任,嚴(yán)重違反社會(huì)公德和法律法規(guī),很容易引起社會(huì)大眾的不滿與抵制,還會(huì)給社會(huì)秩序、國(guó)家穩(wěn)定與團(tuán)結(jié)帶來(lái)不利影響[2]。

針對(duì)網(wǎng)絡(luò)敏感信息的自動(dòng)檢測(cè)和過(guò)濾問(wèn)題,相關(guān)研究者采用了各種方法來(lái)提高檢測(cè)的效率和準(zhǔn)確性。袁斐洋等[3]根據(jù)藏文敏感詞權(quán)重值對(duì)網(wǎng)頁(yè)進(jìn)行等級(jí)劃分,對(duì)含有敏感信息的網(wǎng)頁(yè)進(jìn)行攔截,避免不法言論和信息的傳播,以優(yōu)化藏區(qū)網(wǎng)絡(luò)環(huán)境。南奎娘若等[4]采用基于不同特征加權(quán)及權(quán)重度量的方法抽取基于敏感的藏文自動(dòng)摘要。江濤等[5]提出了基于藏文網(wǎng)頁(yè)的輿情監(jiān)控系統(tǒng),系統(tǒng)監(jiān)控藏文網(wǎng)頁(yè)的“敏感點(diǎn)”并對(duì)“熱點(diǎn)”實(shí)現(xiàn)預(yù)警。湯烈等[6]提出了一個(gè)基于K最近鄰算法的網(wǎng)絡(luò)不良信息過(guò)濾模型。在樣本預(yù)處理時(shí)對(duì)訓(xùn)練樣本進(jìn)行了篩選,使系統(tǒng)的查準(zhǔn)率、查全率和處理速度都有一定的提高,更適應(yīng)實(shí)時(shí)在線系統(tǒng)的不良信息過(guò)濾。普措才仁[7]根據(jù)不良信息的特點(diǎn)對(duì)潛在語(yǔ)義分析進(jìn)行了簡(jiǎn)化,并設(shè)計(jì)了基于簡(jiǎn)化的潛在語(yǔ)義分析的藏文Web不良信息檢索算法。該檢索算法能夠?qū)哂嘘P(guān)于某個(gè)主題的特定傾向的文本進(jìn)行過(guò)濾,對(duì)于那些冗長(zhǎng)文本中因?yàn)殛P(guān)鍵字分散而造成的假匹配,通過(guò)語(yǔ)義分析可以很好地甄別處理,從而提高系統(tǒng)的召回率。陸向艷[8]提出一種基于支持向量機(jī)(Support Vector Machine,SVM)的不良信息識(shí)別方法,包括文本標(biāo)記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓(xùn)練、SVM不良信息測(cè)試5個(gè)步驟。實(shí)驗(yàn)結(jié)果表明該方法能有效識(shí)別網(wǎng)絡(luò)不良信息,為網(wǎng)絡(luò)不良信息的甄別提供了一種方法參考。

傳統(tǒng)的藏文敏感信息檢測(cè)方法在處理大規(guī)模、多樣化的藏文文本時(shí)效率低下,已無(wú)法滿足快速增長(zhǎng)的在線內(nèi)容需求。因此,將深度學(xué)習(xí)技術(shù)應(yīng)用于藏文敏感信息檢測(cè)以提高檢測(cè)的準(zhǔn)確性,已成為亟待研究的重要課題。本文采用一種基于混合神經(jīng)網(wǎng)絡(luò)模型——CINODPCNN,用于藏文網(wǎng)絡(luò)敏感信息的檢測(cè)。首先利用面向中國(guó)少數(shù)民族語(yǔ)言的多語(yǔ)言預(yù)訓(xùn)練模型(Chinese Minority Pretrained Language Model,CINO)對(duì)敏感信息文本進(jìn)行動(dòng)態(tài)的詞向量構(gòu)建,捕獲藏文文本的語(yǔ)義信息,之后深度卷積神經(jīng)網(wǎng)絡(luò)層(Deep Pyramid Convolutional Neural Networks,DPCNN)通過(guò)卷積和池化操作對(duì)詞向量進(jìn)行局部特征提取,以獲得文本的重要模式和特征,最后加入全連接層和分類器實(shí)現(xiàn)對(duì)敏感信息的識(shí)別與分類。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://m.viuna.cn/resource/share/2000006417


作者信息:

吳瑜,嚴(yán)李強(qiáng),徐梓恒,卓瑪央金

 (西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏拉薩850000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 欧美在线视频一区二区 | 日本免费一二区视频 | 不卡午夜视频 | 视频一区二区国产 | 免费国产成人高清在线观看不卡 | 亚洲欧美日韩不卡一区二区三区 | 久久综合五月开心婷婷深深爱 | 玖玖香蕉| 干亚洲美女 | 天天摸天天做天天爽天天弄 | 天天操视频 夜夜 | 国产精品丝袜在线观看 | 国产精品视频ccav | 亚洲精品视频在线免费 | 国产麻豆剧看黄在线观看 | 主播蜜汁丝袜 精品自拍 | 日本 片 成人 在线 日本3级网站 | 甜性涩爱在线观看e8 | 人人看人人做人人爱精品 | 国产精品久久久久久久9999 | 亚洲黄色影片 | 亚洲精品456在在线播放 | 爽爽窝窝午夜精品一区二区 | 999任你躁在线精品免费不卡 | 最近免费中文字幕大全高清片 | 特级毛片视频在线 | 午夜动态 | 一道本高清香蕉网 | 日本x片| 狼人香蕉国产在线视频 | 91短视频网址 | bl男男全肉高h集合 bl男男全肉高h车 | 福利所导航导航导航导航 | 国产精品久久久久久免费播放 | 成年人三级网站 | 又黄又猛又爽大片免费视频 | 男人下面进女人下面视频免费 | 中文字幕欧美激情 | 国产日韩欧美网站 | 亚洲欧美日韩高清一区二区一 | 一级一级人与动毛片 |