文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.182177
中文引用格式: 王潔,喬藝璇,彭巖,等. 基于深度學習的美國媒體“一帶一路”輿情的情感分析[J].電子技術應用,2018,44(11):102-106,110.
英文引用格式: Wang Jie,Qiao Yixuan,Peng Yan,et al. Sentiment analysis about “One Belt, One Road” public opinion of American media based on deep learning[J]. Application of Electronic Technique,2018,44(11):102-106,110.
0 引言
“一帶一路”倡議自2013年提出以來,受到國內外媒體的廣泛關注。隨著相關建設的逐步推進,世界各國媒體對“一帶一路”的相關報道呈快速增長趨勢,新聞報道中蘊含該國對“一帶一路”倡議的關注熱點與情感傾向,是衡量該國對中國快速發展所持態度的重要素材。現有“一帶一路”國際輿情相關研究中普遍存在使用的樣本量偏少、分析方法較單一等問題。利用網絡大數據,結合文獻計量方法和深度學習技術,從客觀角度分析海外輿情情感是本文的研究重點。
傳統的基于詞典和機器學習的情感分析存在分類時靈活度不高和需要大量標注的訓練數據等問題,本文基于深度學習技術,構建了基于自動摘要-CNN的集成式文檔級情感分析模型。具體方法為:首先提取新聞摘要,去除原始文檔中非重要數據的干擾;再利用卷積神經網絡進行句子級情感分析,通過基于語義指向的方法獲得文檔級的情感分數,利用Gensim等工具庫計算媒體關注重點,并對情感波動異常文章給予二次研究。本文提出的基于自動摘要-CNN與未摘要新聞的單一CNN進行了對比實驗,實驗結果驗證了集成模型的有效性。本文的研究有助于了解美國新聞媒體關于“一帶一路”倡議的輿情熱點和情感態度,分析和總結我國在“一帶一路”傳播過程中的經驗及問題,增強未來我國“一帶一路”對外傳播的針對性、有效性和感召力。
1 相關工作
1.1 “一帶一路”國際輿情研究現狀
“一帶一路”倡議是我國加強與亞歐非及世界各國互聯互通,推動沿線各國貿易往來的重大舉措,隨著相關項目的簽約與實施,國內外新聞媒體的報道量快速上升。根據《“一帶一路”大數據報告(2017)》[1]分析結果,美國對“一帶一路”倡議的關注度超過亞洲各國。本文選取的美國主流新聞媒體網站在報道的寬度、深度、時效性等方面發展迅速,報道內容覆蓋政界、學界、商界及普通民眾的觀點與深層分析的結論。
近年國內外學者、智庫、研究機構等從不同角度對“一帶一路”倡議的國際輿情展開了大量研究。張巖[2]基于支持與肯定、理性評價與分析、觀望與保留態度、質疑與否定4個視角,對比分析3家主流阿拉伯網站的情感傾向與報道主題。趙雅瑩[3]定量分析英國3家主流媒體關于“一帶一路”的報道中所使用的情感、判定和鑒別三類態度詞。清華大學愛潑斯坦對外傳播研究中心[4]通過對報紙、電視新聞網、雜志等國外部分主流媒體涉及“一帶一路”倡議的報道進行分析,研究國際新聞媒體報道的輿情演變。米拉[5]分析中印尼“一帶一路”合作的機遇與挑戰。薛慶國[6]研究 “一帶一路”倡議在阿拉伯世界的傳播。ERGENC C[7]提出“一帶一路”倡議標志著中國對中亞和西亞地區政策的積極轉變。
1.2 情感分析研究現狀
目前,情感分析主要利用兩種方法:基于詞典的情感分析與基于機器學習的情感分析。根據文本粒度可以分為:短語級、句子級與文檔級[8]。基于詞典的方法依賴于詞典與規則的構建,由于詞典的容量和詞典適用程度的問題,以及規則構建需要大量人力勞動,基于詞典的方法逐漸機器學習所取代[9]。
2002年PANG B等人首次利用機器學習解決二元情感分類問題[10]。從此相關研究工作分為兩個主要方向,即設計更多有效的分類特征和采用更多高效的神經網絡的結構。KIM Y[11]針對句子級別的分類任務,利用卷積神經網絡做了一系列的實驗,闡述了不同的架構的神經網絡對實驗結果的影響,展示了卷積神經網絡在情感分析領域的重要作用。JOHNSON R等[12]通過分析卷積神經網絡在圖像處理上的處理方式,將句子、單詞與圖像、像素對應,使得卷積神經網絡在情感分類問題上展現出較好的效果。近幾年,國內關于卷積情感分析的研究多基于微博、評論等短文本[13-14]。
2 情感分析
本文研究主要分為4個步驟:(1)網絡爬蟲抓取新聞;(2)利用基于自動摘要-CNN的集成式文檔級情感分析模型進行情感分析,并對比單一CNN模型分析結果;(3)利用Gensim等工具庫統計新聞高頻詞,了解媒體關注熱點;(4)對情感波動異常文章給予二次研究。整體技術思路如圖1所示。
2.1 提取新聞摘要
由于研究對象為多源的美國主流新聞媒體,且不同媒體數據的長度與格式均不相同。因此本文在進行信息抽取時,采用自動化文本摘要的方法以保留新聞關鍵內容及總體含義。
以摘要的準確性和可讀性為標準,選擇基于Gensim主題建模程序的方法。利用構建無向加權圖的方法,以文章中的語句為節點,規格化后的句子相似度為節點的鏈接,避免句子長度對摘要結果的影響。摘要過程中,關鍵詞不局限于單個詞,達到提升摘要可讀性的目的。
2.2 句子級情感分析
卷積神經網絡主要由輸入層、卷積層、池化層、全連接層、輸出層組成。如圖2所示,模型為采用一種卷積窗口,一種池化窗口,且輸入僅為一個特征面的卷積神經網絡。其特殊的網絡結構,使其可以捕捉細小的特征信息,最初在圖像識別領域應用廣泛。近幾年隨著機器學習領域的不斷發展,卷積神經網絡逐漸被應用到語音識別、文本分類、語義分析等方面。
本文參照KIM Y[11]的建議設置模型參數,對圖2的模型改進,進行句子級的情感分析,具體實現方法如下。
輸入層(embedding):embedding層將文本轉換為向量并擴充維度,以滿足卷積神經網絡對參數的要求。
卷積層與池化層(conv-maxpool):用于獲取局部特征與得到最重要特征。卷積層通過局部連接的方式與上層特征面相連,利用權值共享的特性,減小模型的復雜度。訓練過程中采用3種大小的窗口篩選不同的特征,完善對詞向量的特征提取。池化層采用最大池化的方式提取最重要的特征。訓練過程中,使用修正線性單元(Rectified Liner Unit,ReLU)作為激活函數,使線性的神經網絡轉變為非線性的神經網絡,即使輸出結果由式(1)中的f(x)轉變為式(2)中的gj(x),同時加快收斂速度。
其中,Isize表示每一個輸入特征面的大小;K′∈[3,4,5] 為卷積核即窗口的大小;step表示卷積核在其上一層的滑動步長,Wsize為池化窗口的大小。模型通過調整卷積層訓練的參數數目使Oi(輸出特征面大小)為整數。
全連接層:由卷積層和池化層訓練的特征作為全連接層的輸入、輸出分類結果,即依據句子在不同類別上的概率分布,為每句話輸出情感等級標簽。p(yk)為文本在第k種情感傾向上的輸出,代表了文本歸為第k種情感傾向的概率,p(yk)通過softmax歸一化后表示為:
2.3 文檔級情感分析
本文采用基于語義指向的方法分析文章情感。即在句子級情感分析的結果基礎上,依據各子句的情感極性與該句在文檔中的權重,計算文檔的情感等級[13]。第j篇文章(j=1,2,3,…,400)的情感分數為:
其中,scorej為文檔j的情感分數;Pi代表第i個句子的極性,即句子級情感分析的結果;Weights代表句子在文中的權重,即占文章篇幅的比例。
3 實驗與分析
3.1 實驗數據
3.1.1 新聞篩選
新聞媒體選取標準主要有兩條,首先為Alexa網站對美國新聞類網站排名的綜合結果,其次為搜索結果與“一帶一路”倡議的相關程度。通過Python語言編寫爬蟲自動采集相關新聞,因為“一帶一路”倡議多與經濟建設有關,因此數據采集中對財經類報紙略有側重。
檢索結果經過兩步篩選:限制時間范圍為2015年1月~2018年7月;辨別文章標題相關度,刪除不相關的文章。篩選后的數據描述如表1所示。
3.1.2 模型數據
訓練集數據由810篇隨機抽取的“一帶一路”倡議相關新聞與190篇以“China”作為關鍵字檢索所得新聞的自動摘要構成。其中,“一帶一路”倡議相關新聞按照篩選結果中的時間及篇數比例隨機抽取。190篇與中國相關的新聞均來自表1所示的10家媒體,并按照相同比例隨機抽取2015年1月~2018年7月的新聞,以確保媒體報道的行文風格不對訓練結果產生影響。人工對每句話進行標注,共標注12 307句。測試集由202篇文章構成,由所收集到的1 012篇新聞中排除被選擇作為訓練集的810篇新聞構成,采取與訓練集相同的標注方法。
3.2 評價方法
本文情感分析結果評價標準采用精確率(Precision)、召回率(Recall)以及F1值(F1-Score)。
3.3 實驗結果分析
3.3.1 模型訓練
本文設計了4組實驗來訓練模型,以確定卷積神經網絡卷積層窗口的尺寸。如圖3所示,train表示訓練集的結果,test表示測試集的結果。圖3(a)表示卷積層窗口尺寸為2、3、4時,預測最終準確率為89.1%;圖3(b)表示卷積層窗口尺寸為3、4、5時,最終準確率為92.6%;圖3(c)表示卷積層窗口尺寸為4、5、6時,最終準確率為91.2%;圖3(d)表示卷積層窗口尺寸為5、6、7時,最終準確率為87.3%。因此,本文卷積神經網絡采用窗口尺寸為3、4、5的卷積層。
3.3.2 模型訓練
本文對基于自動摘要-CNN的集成式文檔級情感分析模型和單一CNN模型進行了對比實驗,測試結果如表2所示。自動摘要-CNN模型相較于CNN模型在Precision、Recall、F1-Score上分別有了5.69%、4.29%、4.97%的提升。
3.3.3 情感分析結果展示
基于卷積神經網絡的分析結果如圖4所示。從圖中可以看出,87.25%的新聞情感為中性及中性以上。最高值為3.1分,最低值為1.45分,極值分數的文章僅有6篇,說明美國新聞媒體對“一帶一路”倡議的相關報道較為客觀,不會對美國民眾產生極強的情緒影響。
利用Gensim工具庫,本文對1 012篇新聞的高頻詞進行了分析,經去停用詞處理后,出現次數排序為前16名的詞語如表3所示。
由表3可知,高頻詞集中在“一帶一路”倡議的對象、相關內容及相關言論的來源。
3.3.4 負向情感文章分析
文檔級情感分數低于2分的文章歸為負向情感,1 012篇相關新聞中有64篇負向情感文章。時間分布為2015年2篇、2016年4篇、2017年28篇、2018年30篇。情感評分較低的原因可以主要歸納為5個方面:
(1)美國擔心中國會影響其在亞非歐各國的利益。分析結果中顯示的4個異常低分的偏離值,大肆宣揚“中國威脅論”,認為中國試圖通過經濟、軍事力量主導世界政治發展,對美國民眾的態度產生較大影響。然而,我國從不做地緣博弈或拉幫結派、恃強凌弱的事情。因此,美國對此表示警惕,也說明了我國在各國實施建設“一帶一路”相關經濟項目時做到了和平共處,并在世界范圍內產生了積極效果。
(2)美國懷疑中國沒有能力促使“一帶一路”倡議的順利實施。截至2017年5月,我國已與43個沿線國家發布聯合聲明/公報。簽署的多領域合作文件證明了我國的實力能夠推動“一帶一路”倡議的順利實施。
(3)資金融通問題。美國質疑中國在經濟貿易方面仍不愿意開放,不愿意接受外國的投資。然而,中國的政策鼓勵外資銀行把握當前各項政策紅利,對投資審查嚴格是對中外兩方資金的負責,資金融通將不再是問題。
(4)中國收緊對海外收購的監管。相關新聞認為這些新的監管措施大部分不適用于與“一帶一路”倡議有關的海外收購。相關政策顯示,雖然對海外收購監管更加嚴格,但是戰略性的有益的活動仍會被批準。所以,“一帶一路”倡議相關活動的實施不會受到影響。
(5)文章中對被投資國家的描述比例較大。多篇新聞存在大篇幅描述阿富汗等國混亂現狀的內容,使得文章摘要內即便存在如“China has long been seen as one of the most promising prospects for such help.”的語句,文章整體情感也被前文的描述語句拉低。
綜上所述,美國對中國的日益強大存在一定的質疑與抵觸心理,但中國將會用客觀的數據向世界證明中國的實力。
4 結論
現階段,互聯網“一帶一路”倡議搜索量和報道量仍呈上升趨勢。研究國外媒體對“一帶一路”倡議的報道,能夠知悉外國媒體的觀點與態度,及時針對國外輿情做出適當的反應,提升我國的形象。本文構建了基于自動摘要-CNN的集成式文檔級情感分析模型,對美國主流新聞媒體 “一帶一路”倡議相關新聞進行情感分析。模型基于單一CNN模型,增加自動摘要過程進行句子級情感分析,并以此為基礎通過基于語義的方法,分析文檔級情感。通過對比未摘要新聞與摘要新聞的情感分析結果,發現經過自動摘要的文章避免了整文分析帶來的主題不清晰問題,情感更加明確,模型測試效果優于單一的CNN模型。
此外,根據《“一帶一路”大數據報告(2017)》[1]顯示,除美國外,印度、英國、俄羅斯、澳大利亞等國對“一帶一路”倡議的關注度提升明顯。因此,未來將完善對其他各國的研究,對比分析各國輿論發展情況,提出關于“一帶一路”倡議宣傳的針對性意見。在研究方法方面,改進卷積神經網絡的結構,使文本特征的提取更有效,提高模型的準確率。
參考文獻
[1] 國家信息中心“一帶一路”大數據中心.“一帶一路”大數據報告(2017)[M]. 北京:商務印書館,2017.
[2] 張巖.“一帶一路”峰會期間阿拉伯網站輿情調查分析——以三家主流阿拉伯網站為例[J].對外傳播,2017(7):30-32.
[3] 趙雅瑩,郭繼榮,車向前.評價理論視角下英國對“一帶一路”態度研究[J].情報雜志,2016,35(10):37-41.
[4] 清華大學愛潑斯坦對外傳播研究中心.“一帶一路”議題的國際輿情分析[J]. 對外傳播,2017(5):24-26.
[5] 米拉,施雪琴.印尼對中國“一帶一路”倡議的認知和反應述評[J].南洋問題研究,2016(4):79-91.
[6] 薛慶國.“一帶一路”倡議在阿拉伯世界的傳播:輿情、實踐與建議[J].西亞非洲,2015(6):36-52.
[7] ERGENC C.Can two ends of asia meet?An overview of contemporary Turkey-China relations[J].East Asia,2015,32(3):289-308.
[8] 姜杰.社交媒體文本情感分析[D].南京:南京理工大學,2017.
[9] 陳龍,管子玉,何金紅,等.情感分類研究進展[J].計算機研究與發展,2017,54(6):1150-1170.
[10] PANG B,LEE L,VAITHYANATHAN S.Thumbs up? Sen-timent classification using machine learning techniques[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Philadelphia,2002.
[11] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Doha,2014.
[12] JOHNSON R,ZHANG T.Effective use of word order for text categorization with convolutional neural networks[C].Proceedings of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Denver,2015.
[13] 何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強的深度學習模型[J].計算機學報,2017,40(4):773-790.
[14] 馮興杰,張志偉,史金釧.基于卷積神經網絡和注意力模型的文本情感分析[J].計算機應用研究,2018,35(5):1434-1436.
作者信息:
王 潔1,2,喬藝璇1,彭 巖1,許嫻曉1
(1.首都師范大學 管理學院,北京100089;2.中山大學 機器智能與先進計算教育部重點實驗室,廣東 廣州510006)