《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 流程挖掘在銀行服務管理中的應用
流程挖掘在銀行服務管理中的應用
2016年微型機與應用第18期
盧盛祺1,2,3,李遠剛1,2,管連4,周赟3
1.上海財經大學 信息管理與工程學院,上海 200433;2.上海財經大學 上海市金融信息技術重點實驗室,上海 200433; 3.復旦大學 軟件學院,上海 200433;4.國際商業機器(中國)有限公司,北京 100101
摘要: 隨著銀行服務信息化的不斷發展,銀行面臨如何從大量的服務數據中提取有價值的信息用以提升服務效率的問題。在銀行服務管理系統的實際應用中,由于其業務具有并發性事件多、日志數量大等特點,選擇并行Apriori算法進行分析。與傳統的Apriori算法相比,針對銀行業務中并發性業務較多的特點,設計使用了并行Apriori算法,解決了單服務器運行效率隨日志數量明顯下降的弊端。銀行服務管理系統每日會產生大量流程的日志數據,記錄每一位參與員工的工作狀態,通過調用并行Aporiori算法,挖掘服務流程日志中的關聯規則,找出能夠高效協作的員工組合。實驗結果表明,將并行Apriori算法應用于服務流程日志的關聯規則挖掘,使系統可以根據規則將協作關系緊密的員工分配在一起共同處理服務請求,提高了服務效率,取得了合理的應用效果,提高了銀行服務管理系統中服務分配的智能。
Abstract:
Key words :

  盧盛祺1,2,3,李遠剛1,2,管連4,周赟3

  (1.上海財經大學 信息管理與工程學院,上海 200433;2.上海財經大學 上海市金融信息技術重點實驗室,上海 200433;3.復旦大學 軟件學院,上海 200433;4.國際商業機器(中國)有限公司,北京 100101)

       摘要:隨著銀行服務信息化的不斷發展,銀行面臨如何從大量的服務數據中提取有價值的信息用以提升服務效率的問題。在銀行服務管理系統的實際應用中,由于其業務具有并發性事件多、日志數量大等特點,選擇并行Apriori算法進行分析。與傳統的Apriori算法相比,針對銀行業務中并發性業務較多的特點,設計使用了并行Apriori算法,解決了單服務器運行效率隨日志數量明顯下降的弊端。銀行服務管理系統每日會產生大量流程的日志數據,記錄每一位參與員工的工作狀態,通過調用并行Aporiori算法,挖掘服務流程日志中的關聯規則,找出能夠高效協作的員工組合。實驗結果表明,將并行Apriori算法應用于服務流程日志的關聯規則挖掘,使系統可以根據規則將協作關系緊密的員工分配在一起共同處理服務請求,提高了服務效率,取得了合理的應用效果,提高了銀行服務管理系統中服務分配的智能。

  關鍵詞:流程挖掘;關聯規則;員工組合;組織優化;并行Apriori算法

0引言

  隨著銀行同業競爭之間的壓力逐漸加劇,將數據挖掘技術應用于發現流程日志數據中的有用模式,解決銀行在新形勢下面臨的問題,成為大數據時代下銀行信息化應用的研究熱點[1 2]。作為銀行信息化核心系統之一的銀行服務管理系統,需要針對來自于銀行各種業務渠道的客戶進行一站式的管理服務,并幫助銀行優化客戶服務管理流程,提高服務效率。現有的銀行服務管理系統主要提供諸如服務請求錄入、服務請求查詢等基本的業務操作功能,但系統的智能性普遍不高。此外,銀行服務管理系統在長期的運行過程中積累了大量的流程日志,包括事件以及事件執行者等數據[3],這些流程日志所包含的數據反映了流程的執行過程[4]。因此,數據挖掘技術的應用為解決上述問題提供了新的機遇[5 6]。通過對流程日志數據的分析和重現業務流程模型,可以發現影響銀行效率的瓶頸,并更好地利用現有資源提高服務質量,推進了銀行的業務設計和管理的改進[7 8]。

  學術界和企業界已經探討了如何應用銀行流程日志的分析來提高銀行服務管理系統的智能[9]。例如,基于時間序列的數據挖掘可以預測銀行客戶未來的行為[10]。還有基于支持向量機和決策樹的改進算法,對數據進行分析并最終預測銀行的業務效率[1112]。但總體而言,目前的相關研究還主要集中在對銀行流程日志中所包含的客戶相關數據的分析,而對于銀行內部運營效率提升方面的應用研究還相對較少,特別是銀行員工作為服務流程的參與者,他們之間的合作關系也是影響銀行運營效率的主要因素[13]。

  本文重點討論了如何找到合作效率較高的員工組合,來提升銀行服務效率,其中針對銀行服務管理系統流程日志的大規模特點,探討了如何有效地應用并行Apriori算法分析銀行員工與服務效率之間的關系[14]。

1銀行服務管理流程日志預處理

  1.1流程日志的數據分析

  銀行服務管理系統通常會對服務請求處理的流程數據加以記錄,最常見的是以日志文件的形式進行保存。而流程日志作為流程挖掘的輸入,記錄了流程執行過程中的相關數據。

  在銀行服務管理系統產生的流程日志中,可以提取參與某次服務請求處理的所有員工、處理的時間等數據。其中,參與某次服務請求處理的所有員工可以看成是針對該次服務請求處理組成的臨時團隊,而所花費的總處理時間反映了服務的效率。對流程日志數據進行簡單的觀察,即可發現針對相同類型的服務請求,參與處理的員工組合不同,所花費的總處理時間也是不同的。這很大程度上是因為員工之間的協作緊密程度影響著服務效率。通常協作關系好的員工在一起處理服務請求,具有更高的服務效率。這說明完成服務處理的員工的組合與總處理時間之間存在一定的關聯關系。因此可以通過關聯分析找到與高服務效率相關聯的員工組合,回答“怎樣的員工組合是高效的”,也側面回答了“哪些員工在一起工作是協作緊密的”,從而提高了系統的智能性。在此基礎上,針對各類服務請求,生成相應的服務分配規則,將協作關系緊密、可以提供高服務效率的員工分配一起,從而提高服務效率,減少客戶的等待時間,提高客戶滿意度。

  流程日志文件本身往往不是為關聯分析所設計的,它包含了與分析主題無關的屬性,也存在與分析主題所需數據維度不一致的情況,因此數據預處理是整個流程日志挖掘過程的基礎以及保證規則有效性的前提,從大量的數據屬性中提取與挖掘過程有關的屬性從而降低了原始數據的維數。數據預處理主要包括以下幾方面。

  (1)忽略或者刪除與關聯分析無關的屬性。

  (2)對噪聲數據、錯誤數據、缺失數據進行數據清洗處理[15]。由于系統的異常、人為的誤操作等情況都可能產生噪聲數據、錯誤數據、缺失數據,這些數據會影響分析的結果,因此在數據預處理過程中需要對這些數據進行數據清洗,以提高數據挖掘算法的效率和準確度。其中,對缺失數據的問題,通常可以通過數據補齊和數據預測等方法處理。對于少量錯誤數據的問題,通常采取刪除錯誤記錄的方式進行處理。

  (3)對數據進行轉換。這主要包括定義衍生列,并根據邏輯計算其值,對隱私信息進行轉換等操作。

  1.2流程數據的預處理

  (1)數據清理

  針對在流程日志數據分析中發現的典型問題,可以通過以下方法進行處理:

  ①針對錯誤數據、缺失數據的問題,通過定義規則來定位錯誤數據和缺失的數據,并將其刪除。例如“InQueueDateTime”、“OutQueueDateTime”分別表示服務請求進入員工服務隊列池的開始時間和結束時間,顯然“InQueueDateTime”晚于“OutQueueDateTime”的數據為異常數據。因此,可以定義規則:如果記錄中的“InQueueDateTime”晚于“OutQueueDateTime”,則刪除該條記錄。

  ②針對需要對數據進行轉換的問題,可以定義字段轉換規則和計算公式,并據此產生衍生字段。例如設定計算規則:“處理池停留時間(Duration)”可以由“服務請求進入處理池的時間”到“服務請求離開處理池的時間”的間隔計算得到。對各步的處理池停留時間求和,就可以得到衍生字段“總服務處理時間”。

  ③反映服務效率的服務處理時間一般是正態分布的,因此代表高服務效率的記錄往往很少。針對該問題,可以僅截取代表高服務效率的記錄作為分析的數據集,然后設定合適的服務效率分級規則。

  (2)會話識別

  要識別每一條會話,一條完整的會話的界定比較復雜,以撥打電話為例,用戶會在不明確服務流程的情況下,撥打好幾次電話進行嘗試,但其中只有服務成功的會話才是有效的,所以在識別會話的過程中有一些啟發式規則可以使用。

  ①在短時間內,一個用戶進行多次的服務請求,都可以認為是一個會話。

  ②一個用戶如果發起了不同的服務請求,需要被認為是不同的會話。

  ③與用戶確認結束服務作為一個會話的結束,保證會話的有效性。

  在各類企業信息系統所產生的日志文件中,XML是一種比較常見的形式。其中,每一個XML標簽(tag)被稱為一個元素,對應一個屬性。針對銀行服務管理系統產生的流程日志的文件形式,可以通過ETL工具對其進行預處理,只采集與關聯分析有關的屬性。使用 ETL工具讀取流程日志文件和元數據配置文件,將流程數據加載到數據庫中。流程數據表包含的主要屬性有請求類別(RequestType)、請求子類的唯一標識碼(RequestCode)、此次服務請求的唯一標識(RequestCaseUniqID)、操作類別(ActionType)、日志記錄類別(LogRecordType)、系統用戶賬號(LogonID)、會話號(SessionID)、會話開始時間(SessionStartDateTime)、會話結束時間(SessionEndDateTime)、進入處理池時間(InQueueDateTime)、離開處理池時間(OutQueueDateTime)和產品代碼(ProdectCode)等。

  1.3數值屬性離散化

  并行Apriori算法是一種用以挖掘布爾關聯規則頻繁項集的關聯規則分析算法,而服務請求的總時間是數值類型的,因此需要對服務請求總時間進行屬性離散化。

  以處理申請無抵押貸款的服務請求為例,用ProcessRequest_APPL-UPL代表處理客戶申請無抵押貸款的服務請求,且該請求在系統中需要通過4個步驟完成。其基本流程是個人貸款部門業務員完成對請求的相關信息錄入;客戶信息管理部門根據錄入的信息核對該客戶信息并在系統中給予核準意見;對于通過核準步驟的請求,貸款部的額度組根據客戶收入和信息確定批準的貸款金額;最后,個人貸款部門業務員發放貸款并在系統中更新該信息。用TCT代表完成此次服務請求的總耗時。包含上述員工的服務請求的部分流程分析數據如表1所示。

圖像 001.png

服務總時間數據離散的過程如下:

  (1)計算針對客戶申請無抵押貸款類的服務請求(APPLUPL),所有員工序列的總平均處理時間(AverageConsumedTime,ACT),即ACT=sum(TCT)/ (records count)。

  (2)將各組員工序列的處理總時間(TotalConsumedTime,TCT)減去總平均處理時間(ACT)并與總平均處理時間求比值,用TCT%表示。

  (3)確定服務請求處理效率的分級規則。對服務請求的處理效率進行分級時,需要分析經過步驟(2)計算后的TCT%的分布情況,并根據數據的分布情況確定最小置信度的區間。

  依據以下原則選取合適的服務請求處理效率分級規則。

  ①保證分級后,包含期望出現在挖掘結果中的服務等級的記錄數與總記錄數的比值大于選取的最小置信度。例如,假設定義TCT% 小于-50%為Class A,代表具有高服務處理效率,期望挖掘出的關聯規則是員工組合與高服務效率(Class =A)之間的關聯關系。

  ②保證分級后,挖掘出的結果是有意義的。如果將TCT% 小于-1%劃分為Class=A,則挖掘出的關聯規則包含Class=A的項集。因為各組員工的TCT%符合正態分布,假設現有的服務效率(ProductivityClass)分為5級,數據分布以及在此基礎上設定的服務效率分級規則如表2所示。

圖像 002.png

  (4)根據步驟(3)確定的服務效率分級規則對(ACT)進行離散化處理。假設根據表2的規則對數據進行離散化處理,處理后的結果如表3所示。

  經過上述步驟,數值型的總服務處理時間就轉換成了布爾型的服務效率等級。

2銀行服務管理日志挖掘

  針對大量的并發操作,銀行服務管理系統往往采用了并行的處理架構以應對數據增加帶來的性能瓶頸問題。因此,系統產生的流程日志文件也分布在多個服務器上。如果將位于各個服務器上的流程日志文件采集集成到一個服務器上處理,則隨著數據量的不斷累積和增加,最終導致處理和挖掘效率的直線下降。與此同時,Apriori挖掘算法在掃描儲存了大量數據的數據庫表時也會消耗大量的資源。

圖像 003.png

  基于上述問題,本文充分利用銀行服務管理系統本身的并行架構,采用基于并行處理的Apriori算法[16]。假設表4是處理后的完整數據集合,若選擇0.4作為最低支持度閾值,則可應用并行Apriori算法挖掘員工序列與服務效率之間的關聯關系。

圖像 004.png

  (1)生成局部頻繁集

  使用典型的Apriori算法對每個流程日志文件進行關聯分析,分別得到局部的頻繁項目集。

  (2)使用并行的Apriori算法計算關聯規則

  首先將所有局部頻繁項集進行合并,組合成全局候選的頻繁項集合。然后刪去其中不滿足最小支持度的集合,得到全局的頻繁項目集合。獲得所有頻繁集的非空子集并計算子集的置信度,得到關聯規則集。最后,選擇與業務需求相關的關聯規則,即(員工組合)=>(服務等級)形式的規則。

3實驗

  為了驗證使用并行Apriori關聯規則挖掘員工組合與服務處理效率之間關聯關系的效果,這里選擇了銀行服務管理系統在一個月內產生的流程日志文件進行實驗。由于不同類別的服務請求處理的流程和所涉及的處理員工差異較大,因此僅提取包含處理客戶申請無抵押貸款的服務請求的數據進行實驗分析。剔除未完成的服務處理請求記錄,滿足條件的數據集大約有15萬條記錄,其中根據默認的服務等級劃分后的數據分布如表5所示。

圖像 005.png

  服務等級(Class=A)的記錄由于所占比例太小,在尋找頻繁項集的過程中,會因為不符合最小支持度閾值而被過濾。而如果設定較小的最小支持度閾值,則會帶來性能的問題,并挖掘出大量的無用規則。因此排除服務等級為D和E的記錄,并根據選取的最小支持度對服務等級重新劃分。

  在完成對數據的預處理后,使用分布式處理的每一個處理節點都加載包含了對常見的關聯規則算法實現的R擴展包arules后,調用rules包中的apriori函數對處理后的數據做關聯分析。指定合適的最小支持度和最小置信度后,獲得滿足條件的關聯規則的部分結果輸出如下:

  1{E1=John,E2=Lisa,E3=Jenny,E4=Raju}=>{Class=D} 0.154545450.7500000 5.892857

  2 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=C} 0.16363636 0.4285714 2.619048

  3 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=B} 0.172727270.4285714 2.964286

  4 {E1=John, E2=Lisa,E3=Jenny,E4=Sophia}=>{Class=A} 0.154545450.7500000 2.291667

  5 {E1=David, E2=Ken, E3=Bruce,E4=Sophia}=>{Class=A} 0.145454550.8888889 2.716049

  ... ...

  上述結果所對應的包含服務等級A的規則如下:

  1.{E1=John,E2=Lisa,E3=Jenny,E4=Sophia} => {Class=A} conf:(0.7500000)

  2.{E1=David,E2=Ken,E3=Bruce,E4=Sophia} => {Class=A} conf:(0.8888889)

  ... ...

  如果僅僅使用Apriori關聯算法,在計算支持度時需要多次掃描數據庫,而Eclat算法對候選n項集進行支持度計算時不需再次掃描數據庫。因此通過應用Eclat關聯規則算法對實驗數據進行關聯規則挖掘,通過對比挖掘出的結果驗證規則的有效性,并比較它們在性能上的差異。

  在加載包含了對常見的關聯規則算法實現的R擴展包arules后,調用rules包中的eclat函數對處理后的相同數據做關聯分析。指定相同的最小支持度和最小置信度后,獲得滿足條件的關聯規則集合。

  基于本實驗的數據集,且在相同實驗的環境下,加載R擴展包arules后,通過分別調用apriori函數和eclat函數以實現Apriori關聯規則挖掘和Eclat關聯規則挖掘,然后獲取兩者所消耗的時間并進行比較。結果表明,兩者在性能上差異很小。其中,采用Eclat算法進行挖掘比采用非并行Apriori算法進行挖掘快2 min得出結果,并行Apriori算法的時間明顯減少,其中并行算法使用3臺Dell R530/2.83 Hz/8 GB服務器,其他使用單臺服務器配置。修正最小支持度閾值,得到表6所示的實驗結果。

圖像 006.png

  因此基于目前銀行服務管理系統產生的流程數據,采用并行Apriori關聯規則算法進行挖掘,取得了比較理想的效果。

4結論

  協作的緊密程度影響著服務處理的效率,分配協作緊密度高的員工在一起合作可以提高服務的效率。哪些員工在一起合作具有緊密的協作關系,能提供高效的服務,蘊藏在流程日志數據中。本文分析了如何有效地應用并行Apriori算法從流程日志中挖掘出服務處理員工序列與服務效率之間的關系。將挖掘出的關系映射成對服務分配的規則,使得系統根據規則將協作關系緊密的員工分配在一起共同處理服務請求,提高了服務效率,取得了合理的應用效果,實現了銀行服務管理系統中服務分配的智能化。如何應用數據挖掘技術更深層次地去挖掘蘊含在流程日志中的有用模式或知識,是需要進一步思考的問題。

  參考文獻

  [1] LNMON W H.數據倉庫(第3版)[M].王志海,譯.北京:機械工業出版社,2005.

  [2] LAROSE D T. Discovering knowledge in data: an introduction to data mining[M].New Jersey: WileyInterscience,2005.

  [3] 趙衛東.智能化的流程管理[M].上海:復旦大學出版社,2014.

  [4] van der AALST W M P, WEIJTERS T, MATUSTER L.Workflow mining:discovering process models from event logs[J] .IEEE Transactions on Knowledge and Data Engineering, 2004,16(9):1128 1142.

  [5] BERSON A, SMITH S, THEARLING K. Building data mining applications for CRM[M]. New York: McGrawHill Companies, 2000.

  [6] ROMBEL A. CRM shifts to data mining to keep customers[J].Global Finance,2001,15(11):97 98.

  [7] WEISS G M. Data mining in telecommunications[A].The data mining and knowledge discovering handbook[M].Springer US,2005:1187 1201.

  [8] GROTH R.Data mining:building competitive advantage[M].Prentice Hall,1999.

  [9] 趙衛東,劉海濤.流程挖掘在流程優化中的應用[J].計算機集成制造系統,2014,20(10):2633 2641.

  [10] PARVATHY A G,VASUDEVAN B G,KUMAR A,et al.Leveraging call center logs for customer behavior prediction[A]. ADAMS N M.Advances in Intelligent Data Analysis VIII8th International Symposium on Intelligent Data Analysis[C].Lyon: SpringerVerlag,2009,57772:143 154.

  [11] WRITTEN I H, FRANK E.Data mining practical machine learning tools and techniques[M].Burlington:Morgan Kaufmann,2011.

  [12] LIN S W, SHIUE Y R, CHEN S C,et al.Applying enhanced data mining approaches in predicting bank performance:A case of Taiwanese commercial banks [J].Expert Systems with Applications, 2009,36(9):11543 11551.

  [13] AKHIL K,DIJKMAN R M,SONG M.Optimal resource assignment in workflows for maximizing cooperation[A].Business Process Management (Proceedings of the 11th International Conference on Business Process Management)[C] .Berlin Heidelberg: SpringerVerlag,2013:235 250.

  [14] Wu Xindong, KUMAR V.The top ten algorithms in data mining[M].USA:Chapman and Hall/CRC,2009.

  [15] Han Jiawei.Data mining:concepts and techniques[M].Burlington:Morgan Kaufmann,2011.

  [16] YE Y, CHIANG C C. A parallel apriori algorithm for frequent itemsets mining[C]. Fourth International Conference on Software Engineering Research, Management and Applications, 2006, IEEE, 2006: 87 94.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 一区二区三区免费在线 | 精品一区二区三区视频在线观看 | 韩国videos18高清hd | 成 人 黄 色 免费网 | 最新的国产成人精品2022 | 亚洲色大成网站www 亚洲色图天堂 | 亚洲一级片免费看 | 免费国产成人高清无线看软件 | 最近高清中文字幕大全免费1 | 天天操天天噜 | 老司机天堂影院 | 波多野结衣在线不卡 | 欧美 另类 精品一区视频 | 色综合天天娱乐综合网 | 狠狠色狠狠干 | 天堂最新资源在线 | 无遮挡动漫肉在线观看高清 | 黄色免费一级片 | 天天操天天舔 | 男女一级爽爽快视频 | 免费看一级黄色片 | 中国二级毛片 | 国产高清不卡一区二区三区 | 欧美娇小极度另类 | 日韩精品免费一区二区三区 | 日本欧美视频在线观看 | 久久精品国产久精国产果冻传媒 | 男女日皮免费视频 | 精品国产欧美一区二区最新 | 中国videoses12一6 | 日本欧美一区二区三区片 | 欧美日韩精品 | 亚洲另类电击调教在线观看 | 91在线亚洲综合在线 | 男人女人日皮视频 | 欧美怡红院免费全视频 | 天天草夜夜骑 | 免费看的黄网站 | 亚洲色欲色欲综合网站 | 欧美性猛交ⅹxxx乱大交禽 | 欧美狠狠干 |