趙曉東,柳先輝
(同濟大學 電子與信息工程學院,上海 201804)
摘要:在線主題模型基于先時間離散后主題建模的思想,存在文本流切分帶來的模型無法平滑過渡的問題,同時時間片大小的選擇對在線話題的抽取質量影響顯著。提出了一種新的在線短文本流主題演化模型OnlineBTOT。模型在遺傳計算方法上進行了改良,不僅考慮時間片上的總體主題強度對遺傳權重的影響,也將時間片上主題強度的變化納入先驗參數的計算中。同時,為了得到主題強度在時間片上的連續變化和克服短文本的稀疏性,在單時間片上結合了TOT模型和BTM模型。通過在微博短文本語料上與OLDA模型和OBTM模型的對比實驗,證明OnlineBTOT模型能夠有效地分析在線短文本流的主題演化。
關鍵詞:主題演化;短文本;Online-BTOT;主題模型
中圖分類號:TP181文獻標識碼:ADOI: 10.19358/j.issn.1674-7720.2017.08.016
引用格式:林特,趙曉東,柳先輝.一種改進的短文本流主題演化模型[J].微型機與應用,2017,36(8):48-50,55.
0引言
隨著互聯網愈發傾向移動化,新的信息交互方式,比如微博、微信、朋友圈,公眾號等社交網絡和自媒體已成為公眾日常生活須臾不可離的一部分。新的交互方式塑造了輕量化和高頻率的新形式的移動交互語言——短文本。短文本規模龐大,基于其上的話題演化分析能夠有效地從冗雜的文檔集中提取話題按時間順序的發展演化過程,從而幫助公眾分析話題在強度和內容上隨時間的變化。因此,短文本的話題演化研究具有重要的應用背景。
近年來,概率主題模型在文本挖掘領域受到廣泛的關注和研究。BLEI D M等人提出的LDA(Latent Dirichlet Allocation)模型[1]基于詞袋假設,認為文檔是由特定的隱含主題序列生成的,奠定了主題模型的基礎。本質上,傳統的主題模型在主題抽取方面隱式基于文本層面的詞共現現象。然而,短文本在文本層面上的稀疏性致使傳統的主題模型在短文本的隱含主題抽取的準確性普遍不高。為了克服稀疏性, Yan Xiaohui等人提出的BTM(Biterm Topic Model)模型[2]通過顯式地對共現詞對建模,同時將文本層面的詞共現現象擴大到整個文本集層面,從而克服了短文本的稀疏性,主題抽取的準確性較傳統主題模型有顯著提高。
借助主題模型,通過引入時間信息,研究話題隨時間的演化,是當前主題演化的研究熱點。研究者們提出的方法大致分為兩類。一是先主題抽取后離散,反映主題在時間上的強度變化的TOT(Topic Over Time)模型[3]和記錄主題內容和強度演化信息的DTM(Dynamic Topic Model)模型[4]都屬于此范疇,由于需要全局建模,不適合在線文本流分析。二是按時間先離散,OLDA(OnlineLDA)模型[5]通過遺傳計算的方法將歷史分布作為當前時間片的先驗參數,從而具備在線處理的能力。但時間片大小的選擇、遺傳權重的確定對話題抽取質量影響顯著。
針對短文本的稀疏性問題和在線主題模型存在的問題,本文采用按時間先離散方法的同時在每個時間片上引入每篇文本的時間信息,結合BTM和TOT模型的思想建模主題強度在時間片上的連續變化,從主題強度和主題強度變化兩方面改善在線主題模型在主題遺傳度上的計算方法。
1相關工作
1.1BTM模型
BTM模型由Yan Xiaohui等人提出,基于共詞頻率愈大愈傾向于同一個主題的思想,不同的是,模型模擬詞對的產生過程,通過整合整個文檔集的詞對克服文本稀疏性。假設α和β是模型的Dirichlet先驗。文本集詞對的產生過程可以描述如下:
(1)對于每個主題,從參數β的Dirichlet分布中采樣k~Dir(β),采樣K次;
(2)對于整個文本集,從參數α的Dirichlet分布中采樣θ~Dir(α),采樣1次;
(3)對于每個詞對b,從θ多項分布中采樣詞對主題z~Multi(θ),從k多項分布中采樣兩個詞wi和wj。
1.2OLDA模型
OLDA模型根據文本流的時間信息將文本流分成多個時間片,在每個時間片上采用K個主題的LDA模型對文本集建模,超參數β來源于對歷史時間片中主題詞個數估計的遺傳。歷史信息保存在三維矩陣B中,Bt-1k表示主題k在t-1時間片上的主題詞的個數向量k,并通過一個權重向量ωδ,決定歷史數據對當前文本流St先驗參數的影響程度。因此,時間片t上的主題詞分布的先驗參數計算如下:
βtk=Bt-1kωδ(1)
歷史信息的遺傳使各個時間片中推斷出的主題可以自動對齊,同時通過DJS距離度量算法:
計算鄰近時間片上的主題相似度,從而發現新主題。
2改進的短文本流主題演化模型
2.1Online-BTOT模型
單時間片上,模型隱含主題的抽取不僅受詞共現的影響,還受到時間戳信息的影響。文本時間戳信息是連續的,為了避免離散化,時間戳信息將被標準化以滿足0~1上的Beta分布。模型模擬了短文本集中詞對和時間戳的產生過程。模型的概率圖模型如圖1所示。
對于一個給定的含有ND個文本的文本集,每篇文本通過詞對提取,假設總共包含NB個詞對,每個詞對的格式如bi=(wi,1,wi,2),同時對應源文本的時間戳信息ti。假設文本集有K個主題,W個不同的詞。文本集主題對應K維多項分布={θk}Kk=1,主題詞分布可以表示成K×W維的矩陣Φ,每個主題上強度時間滿足Beta(ψk,0,ψk,1)分布,為了簡化模型計算和隱參數估計的難度,模型采用共軛分布的思想,θ,k采樣于超參數為,的Dirichlet分布。模型的聯合概率:
2.2參數估計
與LDA模型類似,模型隱參數,,Φ,Ψ無法確定,因此采用Gibbs采樣方法對隱參數做近似估計。通過推導可以得出zi的全條件概率:
向量的第k項n(k)表示詞對集合中屬于主題k的詞對個數。向量nk的第w項n(w)k表示主題k下的詞w出現的詞數。使用矩估計方法估計Ψ:
2.3遺傳計算
為了將歷史文本估計得到的主題強度和主題強度的變化都作為先驗知識納入到當前時間片的先驗參數計算中,本文提出了一種新的采用積分形式的遺傳權重計算方法,概率圖模型如圖1所示。 假設當前時間為T,定義δ×K維矩陣NT-1α為前δ個時間片的主題詞對個數矩陣,δ×K×W維矩陣NT-1β為前δ個時間片的主題詞個數矩陣,λT-1為前δ個時間片預設的權重向量,ψT-1為前δ個時間片滿足Beta分布的強度變化的參數矩陣,其中ψj,k表示時間片j、主題k的擬合主題強度變化的Beta函數的參數對(ψj,k,0,ψj,k,1)。時間片j主題k的遺傳系數可以計算如下:
3實驗
本文通過抓取20151112至20151119新浪微博平臺上的總計6 051 518條微博作為話題演化和分析的實驗數據集。以OLDA和OBTM(OnlineBTM)兩種主題演化模型作為參照,對本文提出的模型的有效性進行驗證。OBTM采用了Yan Xiaohui的開源代碼,OLDA采用了GibbsLDA++的開源實現。實驗均在搭載OS X系統,配置4 GB內存和Intel Core i5 1.5 GHz CPU的硬件環境下進行。實驗參數K通過調優,選取50,初始值設定為50/K,β初始值設定為0.005,Gibbs采樣迭代頻次設定為100次,遺傳系數λ取經驗值0.6,同時Online-BTOT的遺傳窗口設定為4。
預處理階段:以1天為時間單元切分數據集,通過nlpir分詞工具對微博做分詞處理,過濾@開頭的詞和停用詞,然后過濾詞數<2的微博,經過上述處理后再去除語料中總詞頻<10的詞,最后再次過濾詞數<2的微博。通過預處理,有效微博數減少至5 441 333條,平均每天微博數量為680 166條。
3.1話題抽取的準確性
本文采用了主題關聯性指標Topic Coherence[6]衡量主題的準確性。直觀得,如果一組詞屬于同一個話題,那么在同一篇文檔中,它們共現的頻次相應地會較高。Topic Coherence正是基于這個思想,定義如下:
其中D(v)表示詞v至少出現了一次的文檔頻次,D(v,v′)表示詞v和詞v′同時至少出現了一次的文檔頻次,V(t)表示主題下t最可能出現的前M個詞組成的列表。Topic Coherence指標越大,話題的準確性越高。
為了評估所有K個主題的話題準確性,每個時間片上三種模型均取K個Topic Coherence指標的均值:
實驗取M=5,計算得到的Topic Coherence均值如圖2所示。
圖2主題關聯性指標Topic Coherence均值(K=50, M=5)
實驗結果與定性分析預期的結果一致,OLDA由于稀疏性,對于短文本的話題抽取準確性要明顯低于OBTM模型和Online-BTOT模型,同時隨著時間推移,Online-BTOT模型的準確性普遍高于OBTM模型,這得益于Online-BTOT模型在切面上的平滑過渡和遺傳計算方法上的改良。
3.2話題內容演化
同一個話題隨著時間的推進,話題的側重點會有所偏移,反映到主題模型上,就是主題詞概率分布會發生變化。表1展示了巴黎恐襲子話題IS極端組織話題在連續時間片上的概率最高的前10個詞。可以看到IS極端組織話題開始時與巴黎恐襲關聯,在17日開始與俄羅斯空難關聯,在19日開始與中國公民被綁架殺害關聯。
通過Jensen-Shannon距離公式計算主題之間的關聯度,可以定量分析話題在內容上的演化。圖3所示為OnlineBTOT模型從2015-11-12日開始#5主題相鄰時間片的主題距離計算結果。可以看到14日的主題距離明顯高于其他時間點,此時主題發生了變化(出現了巴黎公布襲擊事件)。同時可以看到在17日和19日主題距離有小幅的增長,正好對應了前面提到的話題在內容上的演化。
4結論
Online-BTOT模型通過引入主題強度在時間片上的變化特征優化在線主題模型的遺傳權重計算,同時在單時間片上引入時間信息參與主題建模,提高了話題抽取的準確度,有效改善了時間片大小選擇不當和文本流切分造成的在線話題抽取質量不高的問題。模型基于Gibbs采樣算法,如何將模型拓展到多線程環境是下一步要努力的方向。
參考文獻
[1] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3): 993-1022.
[2] Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A biterm topic model for short texts[C].Proceedings of the 22nd International Conference on World Wide Web, ACM, 2013: 14451456.[3] Wang Xuerui, MCCALLUM A. Topics over time: a nonMarkov continuoustime model of topical trends[C].Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2006: 424-433.
[4] BLEI D M, LAFFERTY J D. Dynamic topic models[C].Proceedings of the 23rd International Conference on Machine Learning,ACM, 2006: 113-120.
[5] AlSUMAIT L, BARBAR D, DOMENICONI C. Online LDA: adaptive topic models for mining text streams with applications to topic detection and tracking[C].2008 Eighth IEEE International Conference on Data Mining,IEEE,2008: 3-12.
[6] MIMNO D, WALLACH H M, TALLEY E, et al. Optimizing semantic coherence in topic models[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2011: 262-272.