文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.233824
中文引用格式: 陳曉晉,唐球,王耀君. 面向農業知識圖譜構建的文本實體標注準則構建及應用[J]. 電子技術應用,2023,49(5):1-7.
英文引用格式: Chen Xiaojin,Tang Qiu,Wang Yaojun. Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction[J]. Application of Electronic Technique,2023,49(5):1-7.
0 引言
近年來,隨著大數據技術的發展,各個領域的數值、圖像、文本、語音視頻等多源大數據增長迅速。以農業領域為例,農業新聞、農資信息、農業政策法規等與農業生產生活息息相關的信息通過互聯網發布和傳播,構成了農業文本大數據的主要組成部分。農業從業者及研究者主要通過網絡中的文本信息來獲取農業資訊,有效分析文本數據不僅可以幫助農業從業者了解最新的實踐和趨勢,還可以為農業從業者、專家在農業任務管理中做出決策提供支持。農業資訊中蘊含著大量的專業農業知識及豐富的農業信息,且主要以非結構化的形式存在。農業領域的命名實體識別的任務是從非結構化的文本中識別與農業領域相關的實體,例如作物名稱、病蟲害、農藥、肥料等,是作為農業知識圖譜構建和問答等下游任務不可或缺的基本組成部分。
針對命名實體識別任務的主要方法為,基于規則和字典匹配、基于機器學習的方法以及兩者混合的方法。但存在不足,無法滿足復雜文本需求,仍有局限性。
近年來隨著深度學習的快速發展,其實現了無需復雜的特征工程和豐富的領域知識就可以學習復雜的隱藏表示。目前,基于深度學習的模型已被廣泛應用于完成命名實體識別任務,并已廣泛應用于醫學、金融等領域,但是目前,在農業領域仍存在挑戰。
農業文本實體存在著領域特殊性、實體命名方式繁多、實體邊界模糊、特征提取不充分、實體邊界標注不一致、數據庫不足等問題。這在一定程度上增加了識別農業文本中實體的成本和難度。
為了解決上述問題,并促進基于農業文本命名實體識別任務及其后續應用的完成,本文將構建農業文本數據實體標注準則,并以此建立農業實體標注語料庫。為農業領域相關從業人員提供實體標注準則,便于其開展農業文本研究,例如知識圖譜構建及問答等相關工作。
本文詳細內容請下載:http://m.viuna.cn/resource/share/2000005299
作者信息:
陳曉晉1,唐球2,王耀君1
(1.中國農業大學 信息與電氣工程學院,北京 100083;2.中國電子信息產業集團有限公司第六研究所,北京 100083)