小说,完结小说,好看的历史书籍推荐

基于連續時間MDP模型和隨機決策的維護周期

2016年電子技術應用第3期

敖銀輝，王翠芬

廣東工業大學機電工程學院，廣東廣州510006

摘要： 生產系統的維護策略直接關系到設備的使用壽命，對生產線的連續性和可靠性，以及產品質量、生產效率、滿足率等方面都有影響。利用連續時間的MDP模型研究單臺設備的維護策略，綜合考慮轉移概率的動態性和方案選擇的隨機性，利用MATLAB軟件實現優化，獲得最佳維護周期。將其應用于混聯結構，與基于離散空間的MDP維護策略進行比較。結果顯示，基于連續時間MDP模型的維護策略能夠有效提高生產系統性能，降低成本，提高生產效益。

關鍵詞： 連續時間的MDP模型維護策略轉移概率的動態性方案選擇的隨機性 MATLAB仿真

中圖分類號： TP23
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.2016.03.035
中文引用格式： 敖銀輝，王翠芬. 基于連續時間MDP模型和隨機決策的維護周期[J].電子技術應用，2016，42(3)：123-126.
英文引用格式： Ao Yinhui，Wang Cuifen. Maintenance cycle based on continuous time MDP model and stochastic decision[J].Application of Electronic Technique，2016，42(3)：123-126.

Maintenance cycle based on continuous time MDP model and stochastic decision

Ao Yinhui，Wang Cuifen

College of Electromechanical Engineering，Guangdong University Technology，Guangzhou 510006，China

Abstract： The maintenance strategy of production system is directly related to life of equipment. And it effects the continuous and reliability of production line, product quality, production efficiency and satisfaction rate etc. This paper uses the continuous-time MDP model to study the maintenance strategy of single device. And it considers the dynamic of transition probability and the random of scheme selection, by simulation and optimization to obtain the optimal maintenance strategy in Matlab software. It is applied to the series and parallel structure, compared with discrete space MDP maintenance. The results show that maintenance strategy based on continuous-time MDP model can effectively improve performance of production system, reduce costs and improve production efficiency.

Key words : continuous-time MDP model；maintenance strategy；the dynamic of transition probability；the random of scheme selection；MATLAB optimization；series and parallel structure

0 引言

近年來，隨著科學技術的迅速發展，各生產系統的結構日益復雜化，各種高精度、集成化設備廣泛應用于生產線。企業間的競爭越來越激烈，生產系統的復雜性、隨機性使得生產線的維護難度不斷提升，維護成本和強度隨之加大，合理的維護策略對獲得良好生產效益起著至關重要的作用。

目前國內外關于生產線維護策略的研究成果很多，主要分為基于狀態的維護和基于時間的維護兩種形式^[1]。基于狀態的維護是在設備檢測技術迅速發展的基礎上實現的，通過檢測設備的狀態來判斷其出現故障的概率，確定實施方案，使損失降到最低。傳統的基于時間的維護多采用固定維修周期，這樣的方式操作簡單，維護人員和備件都可以做事先安排。隨著神經網絡與模糊系統理論與技術的發展，基于神經網絡與模糊邏輯的自適應控制系統得到了廣泛應用^[2-5]。徐昕等人^[6]對基于MDP動態系統學習控制理論、算法與應用的發展前景進行綜述。起初研究人員用離散的Markov鏈描述設備維護調度模型，之后，Gharbi等人提出用連續Markov鏈描述設備壽命的維護結構，通過控制設備生產率和預維修率使目標函數達到最優化^[7]。Jin 等人^[8]利用馬爾可夫決策過程描述設備維修或替換等維護活動的概率轉移函數，得到一個生產系統的預防性維護優化模型。陳靜靜提出利用MDP模型同時考慮劣化故障和隨機故障兩種故障類型，制定針對單臺設備工作排序、清洗和維修的長期維護優化策略^[9]。以上關于MDP模型的應用多采用固定式轉移概率，在一定程度上反映了狀態的變化過程。根據生產實際可以考慮采用動態的轉移概率反映不同狀態下的狀態轉移情況。

本文將利用連續時間的MDP模型描述單臺設備工作狀態，充分體現生產實際中設備工作、維護的連續性，綜合考慮轉移概率和實施方案選擇的動態性和隨機性，利用MATLAB實現優化獲取最佳維護周期。在系統層維護中以混聯結構為框架應用該模型，對其實現優化仿真，驗證其可行性。

1 連續時間的MDP模型

作為描述動態隨機系統優化決策問題的一類基本數學模型，MDP模型通常用四元組{S，A，P，R}表示，其中S為狀態空間，A為行為空間，P為轉移概率（滿足無后效性），R為回報函數，在一定意義上可以理解為目標函數。

定義行為策略π表示從狀態集合S到行為選擇概率的映射，即π：S→P(a)。

1.1 離散空間的MDP

jsj4-1.1-x1.gif

1.2 連續時間的MDP

其中，r為回報函數，對于其積分即為目標函數。需要尋找最佳π使V^π(x)達到最優解。

實際生產系統中設備工作環境復雜，設備的自身工作狀態、運轉環境、已維護次數等信息直接關系生產線的效益，合理的維護策略和預先安排能夠有效降低因突發事件帶來的巨大損失。MDP模型能夠形象地模擬不同維護策略對設備狀態的影響。對于整個生產系統，要獲得最優維護策略，首先需要研究每臺設備的維護策略。本文利用連續時間的MDP模型研究單臺設備維護策略，然后研究在交貨期、在制品數和成品率等因素的綜合影響下，系統層的維護策略。

2 單臺設備維護策略

在生產實際中設備的工作狀態具有連續性的特點，因此，利用連續時間的MDP模型能夠更加合理地模擬設備退化過程。在連續時間的MDP模型中，狀態空間、行為空間均為連續空間，狀態轉移時間也是連續的。本文將在此基礎上進一步考慮轉移概率的動態性和方案選擇的隨機性。本文將設備的狀態空間設定為連續空間，綜合考慮設備自身運轉狀態、成品率、維修記錄等因素，利用連續函數擬合設備自然狀態下的退化過程，實現設備整個生命周期中狀態的連續性。

首先，根據生產實際數據擬合狀態空間x(τ)，0<τ≤m。x(τ)是關于自然退化時間τ的連續函數，表示設備的自然退化過程。根據實際情況，狀態空間x(τ)為遞減函數。隨著時間的延續，當到達時刻m時設備將退化至某一劣化極限x(m)，狀態x(m)表示設備出現故障，必須進行故障性維修。

行為空間u(t)表示t時刻系統處于狀態x(τ)可采用的行為的集合。

且當 x(τ)=x(m)時u(t)=1，當x(τ)<x(m)時設備處于無法修復狀態，停止工作。

狀態轉移矩陣P(i，j，a)表示設備處于狀態x(i)，采用方案a后，設備狀態轉移到x(j)的概率，其中i，j∈τ。轉移概率P(i，j，a)的隨機性表現為：

r(x(τ)，u(t))表示設備處于狀態x(τ)時采用方案u(t)獲得的收益。π(u(t))表示所采用的一系列維護策略，即在每個維護時刻所采用的方案，目標即為尋找一個最優維護策略π^*(u(t))使效益最大化。本文中維護策略π的選擇由轉移概率的動態性和方案選擇的隨機性體現。在此基礎上確定最優維護周期T，使目標函數達到最優解。

平穩策略的值函數：

若u(t)≡0則設備狀態變化過程為服從函數x(τ)，即設備自然退化過程。且有，若采用最優維護策略π^*(u(t))，則所對應的狀態空間為x^*(τ)。目標即為尋找最優維護策略π^*(u(t))和最優維護周期T^*使系統效益最大化。

假設維護周期為l，采用一定維護策略后，單位時間產生的效益為h(t)，其與狀態空間具有線性關系。則一個維護周期內獲得效益：

其中g(a)表示選擇方案a的概率，x(i)表示設備所處狀態。最佳維護策略π^*即使效益最大化的維護周期T和實施方案a，π^*π(T，a₁，a₂，a₃，…，a_n)，a_n∈a。

目標函數：

其中，u₁、u₂分別表示設備進行一次預防性維修和故障性維修的費用，v₁、v₂分別表示設備進行預防性維修和故障性維修的次數。

3 系統層維護策略

對于生產系統，根據連接形式的不同各單臺設備所得效益在系統層效益中反映的程度不同。本文研究假設，對于串聯結構的效益，以串聯結構中效益最大的單臺設備的效益作為評價標準。并聯結構的效益，以各單臺設備效益之和為評價標準。

串聯系統效益：

在系統混聯結構中，將并聯設備作為一個單元與串聯設備一起作為串聯結構考慮。

混聯系統效益：

本文以混聯結構為模型框架研究最優維護策略，系統層維護策略模型滿足maxQ^π(l)，即獲得能夠使系統效益最大化的維護周期l和相應的各個周期的實施方案。

4 案例仿真

為驗證模型的可行性和有效性，本文采用以下算例進行分析。如圖1所示，系統由5臺退化模型相同的設備組成，按統一周期進行仿真。設備自然退化過程x(τ)通過擬合為8次多項式，極限工作時間8 000。一次故障性維修的費用u₂=5 000元，一次預防性維修的費用u₁=1 000元。轉移概率P(i，j，a)的分布如下：

實施方案選擇原則如下：

利用MATLAB建模仿真獲得如圖2結果。由圖2可知，在此模型假設基礎上，當維護周期為1 700 h時效益最大化。維護周期較低時，頻繁的維護會增加維護費用導致效益降低。維護周期太大時，設備維護不及時，故障停機的概率增加，設備利用率下降，導致效益下降。

由圖3可知，在設備運轉初期（0<t<2 500），當到達維護周期時選擇正常運轉（a=0）而不實施維護措施的概率為40%；在運轉中期（2 500<t<5 600）,選擇預防性維護（a=1）的概率為61%；在運轉后期（t>5 600）,選擇故障性維護（a=2）的概率為54%。由此可知，在設備運行后期隨著設備可靠性的降低，故障維修的次數增加，符合生產實際，證明方案選擇假設可行。

本文以混聯結構為框架應用此模型，分析系統的設備利用率，與基于離散空間的MDP維護策略進行比較。如圖4所示，采用連續時間MDP模型下的平均利用率為0.992 48，采用離散MDP模型的平均利用率為0.987 22。由此可知，連續時間MDP模型下的維護策略能夠有效提高設備利用率，從而在一定程度上提高效益，進一步證明基于連續時間MDP模型的維護決策的有效性和可行性。

5 結論

在生產實際中設備狀態屬于連續變化量，本文采用連續時間的MDP模型模擬設備狀態連續變化過程下系統效益的連續變化過程。綜合考慮生產實際因素，利用生產實際數據模擬設備自然退化過程，將連續變化的設備狀態轉化為效益的變化過程，以效益最大化為目標獲得最優維護策略。系統層框架結構在基于連續時間的MDP模型下，將生產系統的現實因素融于控制條件，進一步控制維護策略，獲得較為合理的維護策略。仿真結果顯示，基于連續時間MDP模型應用于生產系統，可有效提高設備利用率和產量，改善系統性能，從而提高生產線效益。

參考文獻

[1] 吳洪飛.基于非齊次馬爾可夫過程的多動作動態維護策略研究[D].上海：上海交通大學，2008.

[2] 王振雷.模糊神經網絡理論及其在復雜系統中的應用研究[D].沈陽：東北大學，2002.

[3] 徐瑜，危韌勇.神經網絡在控制系統中的應用現狀及展望[J].電腦知識與技術，2006(5)：178-179，187.

[4] 徐英智.一種新型模糊神經網絡及其在控制中的應用[D].西安：西安電子科技大學，2008.

[5] 馬俊偉.動態模糊神經網絡在非線性系統中的應用研究[D].沈陽：東北大學，2010.

[6] 徐昕，沈棟，高巖青，等.基于馬氏決策過程模型的動態系統學習控制：研究前沿與展望[J].自動化學報，2012(5)：673-687.

[7] GHARBI A，KENNE′ J P.Maintenance scheduling and production control of multiple-machine manufacturing systems[J].Computers & Industrial Engineering，2005(48)：693-707.

[8] JIN Y L，JIANG Z H，HOU W R.Optimal policy research on reliability-centered preventive maintenance for multicomponents equipment[J].Journal of Shanghai Jiaotong University，2006，40(12)：2051-2056.

[9] 陳靜靜.基于MDP的半導體制造設備維護調度研究[J].電子測量技術，2012(3)：24-27.

原創聲明：此內容為AET網站原創，未經授權禁止轉載。

相關內容