《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于C5.0決策樹算法的考試結果預測研究
基于C5.0決策樹算法的考試結果預測研究
潘峰
(國家稅務總局稅務干部進修學院,江蘇 揚州 225007)
摘要: 隨著終身學習體系的逐步構建,基于互聯網的遠程學習模式應用不斷普及,各種網絡學習平臺也不斷累積大量的學員學習和考試方面的數據。采用數據挖掘技術對這些數據進行分析,可以充分挖掘網絡學習平臺存量數據的價值。基于C5.0決策樹算法,采用軟件工具對研究數據進行分析,發現了影響考試結果的諸多因素及其重要性,可以針對如何改善學習方法、提升學習效果、改善平臺的服務模式等提出很好的改進建議。
Abstract:
Key words :

  潘峰

  (國家稅務總局稅務干部進修學院,江蘇 揚州 225007)

  摘要:隨著終身學習體系的逐步構建,基于互聯網的遠程學習模式應用不斷普及,各種網絡學習平臺也不斷累積大量的學員學習和考試方面的數據。采用數據挖掘技術對這些數據進行分析,可以充分挖掘網絡學習平臺存量數據的價值。基于C5.0決策樹算法,采用軟件工具對研究數據進行分析,發現了影響考試結果的諸多因素及其重要性,可以針對如何改善學習方法、提升學習效果、改善平臺的服務模式等提出很好的改進建議。

  關鍵詞:決策樹;考試結果;預測

1網絡學習與考試

  基于Internet的網絡學習是目前比較流行的遠程學習模式,它打破了傳統學習的時空環境限制,有利于構建終身學習體系。網絡學習平臺的學習內容以Web頁面的形式呈現,具有費用低廉、資源更新快、交互性強等特點,學員可以隨時隨地安排自己的學習時間,提高學習效率。

  網絡學習平臺除了提供在線學習功能,往往還提供隨堂練習、課程作業、課程考試等考試功能。對學習者學習狀況的評估將直接影響他們對網絡學習的態度、積極性和效果[1]。“學而時習之”,通過網絡學習平臺的考試功能進行自我練習(考試)、參加有組織的考試可以有效促進學員學習,提高學習效果和針對性。

2決策樹與C5.0算法

  決策樹的分析結果形似一棵倒置的樹,所以稱為決策樹。決策樹算法是一種逼近離散函數值的方法[2],它通過構造決策樹來發現數據中蘊涵的分類規則。決策樹構造的輸入是一組帶有類別標記的例子,構造的結果是一棵二叉樹或多叉樹[3],由上到下依次為根節點、內部節點和葉節點。決策樹通過對訓練樣本的學習建立分類規則,依據此規則實現對新樣本的分類,屬于有監督的學習方法[4]。

  決策樹的類別包括分類決策樹和回歸決策樹,其中,分類決策樹目標變量為分類型數值,其輸出變量的眾數就是分類結果。決策樹的分類過程是基于邏輯的,每一個葉節點都對應于一條布爾規則。樹的生長過程(即建立決策樹的過程)就是把數據不斷進行切分的過程,每一次切分力求分成的各組之間的差異最明顯。各種決策樹算法使用了不同的剪枝策略,它們的主要區別是對這種“差異”明顯程度的衡量方式。

  決策樹的構建過程是一個遞歸的過程,所以需要確定停止條件。最直觀的方式是當每個子節點只有一種類型的記錄時停止,但往往會導致過度擬合(樹的節點太多)。另一種方法是設置當前節點中的記錄數最小閾值,將置信度最大的分類作為當前葉節點的分類。

  作為一種分類決策樹模型算法,C5.0可以生成決策樹或規則集。C5.0算法基于信息增益度分裂方式,第一次拆分確定樣本子集,然后根據另一個字段再次拆分,這一過程重復進行直到樣本子集不能被拆分為止[4]。C5.0算法以信息熵的下降速度(能夠帶來最大信息增益的變量)作為確定最佳分支變量和分割閾值的依據。熵是對樣本不確定性的一種度量[5]。一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。

3C5.0決策樹算法在考試結果預測中的應用

  3.1數據挖掘工具

  SPSS Clementine是SPSS公司收購取得的數據挖掘工具。SPSS Clementine 12.0結合商業技術可以快速建立預測性模型,幫助用戶改進決策過程。Clementine廣泛支持Kmeans模型、C5.0決策樹、神經網絡等各種預測模型。

  3.2數據準備

  本文研究的數據對象為某網絡學習平臺導出的2015年課程學習和課程考試情況數據(學員學習課程與考試結果);數據格式為“課程學習與考試情況”Excel表;操作系統采用Windows 7 Professional 32 bit;硬件配置:內存為4 GB。

  該學習平臺目前擁有注冊學員近2 000人,提供標準格式課件點播服務,還提供課程同步模擬考試服務。“課程學習與考試情況”表記錄了用戶學習過的課程的次數、時間,還記錄了該課程同步模擬考試的結果,具體字段為“所屬部門”、“用戶名”、“姓名”、“課程名稱”、“考核狀況”、“學習次數”、“學習總時長”,記錄共有18 476條。部分示例如表1所示。

005.jpg

  3.3數據處理

001.jpg

  通過對數據格式和內容的調整、完善,可以使得建立的模型更簡單、準確[6]。

  為了構造新的衍生特征信息,這里增加一個輸入字段,使用WPS 表格10.1軟件增加“次平均學習時長”列,列值為使用公式計算學習總時長/學習次數的結果。

002.jpg

  由于直接使用表格文件,這里無需添加本地數據源,在Clementine軟件中直接添加Excel“源”節點,命名為“學習考核情況”,導入對應的數據文件和工作表。在“過濾”中配置字段篩選,縮小處理范圍,清除無用字段(如“所屬部門”、“用戶名”、“姓名”字段),如圖1所示。預處理后的總數據記錄數不變(圖1字段過濾數據格式如表2所示)。添加“類型”節點設置各字段“數據類型”和“方向”,“考核狀況”對應“標志”類型,“學習次數”對應“集”類型,“次平均學習時長”對應“范圍”類型,如圖2所示。

006.jpg

  通過“重新分類”節點對學習次數進行規范化分類,這里根據數據密度分為“1+”、“5+”、“10+”、“30+”,分別代表1≤學習次數圖2數據類型≤4、5≤學習次數≤9、10≤學習次數≤29、學習次數≧30,生成新字段名“學習總次數分段”。

  3.4利用C5.0決策樹算法進行數據挖掘

  繼續添加一個C5.0節點,對數據進行挖掘,配置目標字段“考核情況”,輸入字段為“學習總次數分段”、“次平均學習時長”,“模型”中配置選擇使用分區數據,輸出類型為“決策樹”,選擇“組符號”(使用分箱法檢查當前分組變量的各類別能否合并,如果可以先合并再分枝,此方法得到的決策樹相對精簡),修剪嚴重性(置信度)設置為75%,子分支最小記錄數為200。

003.jpg

  Clementine從讀入數據到結果顯示的數據挖掘全過程,是以流程圖的形式顯示在數據流程區內的,如圖3所示。每個節點規定了數據的不同操作,箭頭表示數據流向,各種操作組合起來就形成了通向目標的路徑。將前面的節點相連接,執行結果“考核結果”會出現在軟件主界面右上角管理器“模型”中,瀏覽這個模型可以看到數據圖3Clementine數據流程區

  挖掘結果。需要注意的是,可以對各節點添加輸出節點“表”觀察各節點數據情況(可以將模型結果添加進數據流程區并輸出)。

  針對實驗數據執行決策樹模型“考核結果”,生成規則集(如圖4所示)和決策樹模型(如圖5所示)。

004.jpg

  3.5考試結果預測模型解讀

  次平均學習時長≤0.17小時的學員,“未通過”考試的可能性為88.4%;次平均學習時長>0.17小時的學員,通過考試的可能性為81.4%。次平均學習時長≦0.17小時且學習次數低于5次的學員,“未通過”考試的可能性為96%;次平均學習時長>0.17小時且學習次數超過5次的學員,通過考試的可能性為97.8%。在決定考試是否通過的因素中,“次平均學習時長”最重要,其次是“學習次數”。從實際經驗角度看,每次學習時間較長且學習次數較多的學員,通過考試的概率可能會較大。根據該網絡學習平臺的課程學習和考試數據,并使用較為先進的Clementine數據挖掘軟件構建的C5.0決策樹模型,量化反映了網絡學習和考試的這一現象;又由于軟件建模時采用分區數據,提高了模型在不同樣本集上的穩健性,因此獲得的預測模式較為可信。

  各類網絡學習平臺可以參考此模型更好地指導學員在線學習,有針對性地提出學習建議,如提醒學員上網學習和學習次數等;也可以進一步針對學員進行聚類分析,深度定制課件資源和服務內容,如開發移動客戶端,提高用戶訪問平臺的便捷性等。

4結論

  隨著網絡學習平臺的發展和提升,為更好地貼近用戶需求,深化學習效果,應當關注業務提升需求,充分挖掘海量的學習和考試數據,研究并發現決定學習效果的關鍵因素。C5.0算法在面對輸入字段較多的問題時比較穩健,也易于理解,同時也擅長處理非數值型數據,可以在網絡學習平臺關鍵問題預測中發揮更大的作用。

參考文獻

  [1] 岳偉.建構主義學習理論指導下的自學考試網絡助學策略設計[J].考試研究,2015(1):915.

  [2] 張軍.數據挖掘中自我學習算法研究[J].網絡安全技術與應用,2014(11):171,173.

  [3] 陳承斌.基于決策樹算法分析惡意網絡攻擊和入侵[J].信息與電腦(理論版),2010(7):15.

  [4] 陳春茶.數據挖掘技術在移動商務客戶價值識別中的應用研究[D].昆明:云南大學,2012.

  [5] 宋海霞,嚴馨,于正濤,等.基于半監督主動學習的虛假評論檢測[J].昆明理工大學學報(自然科學版),2015,40(5):5965.

  [6] 張線媚.數據挖掘在電信行業客戶流失預測中的應用[J].微型機與應用,2015,34(15):99102.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 日韩视频高清 | 一级特黄aaa大片 | 99九九视频高清在线 | 国产成人爱情动作片在线观看 | 精品一区二区视频在线观看 | 一区二区三区免费精品视频 | 免费看91视频 | 你懂的日韩 | 久久免费国产 | 在线观看黄日本高清视频 | 免费在线观看成人 | 18视频免费网站 | 日韩专区视频 | 看片日韩 | 国产一区视频在线免费观看 | 制服丝袜第一页在线观看 | 色综合久久久久久久久五月性色 | 97在线免费 | 成年午夜性爽快免费视频不卡 | 天堂网久久 | 看全色黄大色大片免费久久怂 | 色视频免费在线 | 午夜爱爱小视频 | 亚洲 欧美 日韩在线综合福利 | 操美女免费看 | 在线观看黄色小视频 | 久久精品免费全国观看国产 | 国产日本欧美在线观看乱码 | 精品免费国产一区二区三区 | 丝袜综合 | 久久99国产亚洲高清观看首页 | 国产日韩在线观看视频 | 久久91精品久久久久久水蜜桃 | 综合激情区视频一区视频二区 | 六月丁香激情综合成人 | 永久免费的啪啪免费的网址 | 日韩伦理一区二区三区 | 在线播放成人毛片免费视 | 日本黄色小视频在线观看 | 亚洲国产天堂在线mv网站 | 在线观看免费播放网址成人 |