文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.182725
中文引用格式: 楊爍,孫欽斐,朱潔,等. 基于大數據平臺的電采暖用電量預測分析[J].電子技術應用,2018,44(11):61-63.
英文引用格式: Yang Shuo,Sun Qinfei,Zhu Jie,et al. Forecast and analysis of electric heating consumption based on big data platform[J]. Application of Electronic Technique,2018,44(11):61-63.
0 引言
近年來,研究人員對電力用戶分類、用電行為特征等進行了一些研究。如,文獻[1]以傳統行業劃分為基礎提出基于聚類的用戶分類研究;文獻[2]進一步將居民電力用戶類型作為研究對象,并通過云平臺和聚類算法K-Means相結合的方式,將居民用戶分為了5類并分析了各類用戶行為;文獻[3]-[6]從用電負荷的角度出發,對行業或家庭用戶進行分類,為公司決策提供更有針對性的參考依據,例如有序用電、峰谷電量,具有一定的實際意義。研究人員進一步討論形成的智能用電策略在有效提高用戶的用電效率,減少家庭能耗,實現經濟用電的方面很有指導意義。在家庭用戶方面,文獻[7]建立了家庭用戶號、房屋面積、家庭成員數、每天用電量、峰谷電量、家用電器數等的數據維度模型,進而利用大量家庭用戶用電數據進行分析挖掘??紤]到用戶負荷除了受用戶自身作息習慣和經濟收入等直接因素影響外,還與節氣、天氣、當地最低氣溫、重要節假日和地域屬性的間接因素密切相關,文獻[8]-[10]分別考慮上述因素,實現對居民用電行為特性的差異化分析,為需求響應提供了有效的數據支撐,例如峰時耗電率、負荷率、谷電系數、平段的用電量百分比等。
本文基于大數據分析平臺,通過BP神經網絡預測方法,研究各種因素對用戶采暖耗電量的影響,建立用戶的采暖用電量預測模型,并最終應用在北京市“煤改電”工程智能服務平臺上。本文充分考慮該工程數據體量大,找出影響采暖用電量的關鍵因素。此研究對于降低用戶采暖成本以及完善配電網建設和用戶用電負荷配置提供數據支撐,具有積極意義。
1 智能服務平臺架構設計
本文中智能服務平臺總體架構主要分為以下5個層次:基礎層、數據采集層、數據分析層、綜合應用層、展現層以及統一信息庫,具體如圖1所示。
平臺功能架構如圖2所示。
用戶通過智能采暖APP實時監測家庭采暖設備、采集設備,對異常情況進行告警,同時通過智能采暖APP智能操控采暖設備,并對采暖設備的量費信息、補貼信息進行便捷查詢,提升供電服務質量。
企業通過對“煤改電”工程的用戶信息、采暖設備運行情況、室內溫度、氣象信息等數據的采集、運算和分析處理,了解用戶的采暖習慣偏好,提高用戶采暖用電數據預測的精準度,同時結合區域負荷數據,為完善配電網建設和用戶負荷配置提供數據支撐。
值得指出的是,在平臺底層采用了基于Hadoop的HDFS數據存儲以及內存計算引擎Spark的大數據技術。HDFS分布式存儲主要是供Hadoop應用程序使用,滿足低成本、高容錯、高吞吐等大數據處理需求特性。Spark具有構架先進、運算高效、簡單易用等優點,同時可與Hadoop無縫連接,提供整體解決方案。此外Spark在機器學習方面有著天然的優勢,在迭代處理計算方面比Hadoop快100倍,系統具有很好的可擴展性。
樣本數據采集通過安裝在選取的典型用戶家中的溫濕度傳感器、電流電壓傳感器,按15 min的間隔頻率進行數據采集,整個采暖季采集到上1 000萬條設備監控數據,結合氣象數據服務平臺提供的采暖季歷史氣象記錄數據,通過ETL工具從采集廠商提供的前置數據庫讀取到基于大數據的智能服務平臺Hive數據倉庫中。
NN模型訓練及預測流程如圖3所示。主要預測分析步驟如下:
(1)通過pySpark編寫數據清洗的Job任務程序,對采集到的異常、缺失、重復數據進行數據預處理,并對每個時間段的耗電電量進行統計;
(2)通過對收集的特征數據進行相關性分析,去除相關性過低的特征數據,最終保留相關性大于0.5的5個特征數據;
(3)對特征數據進行規范化數據處理,并將數據集拆分為訓練集和測試集兩組;
(4)利用Spark引擎提供MLLib機器學習庫中的K-Means聚類算法對訓練集數據進行聚類模型分析;
(5)利用Spark引擎提供MLLib機器學習庫中的線性回歸算法LinearRegression進行線性回歸分析;
(6)利用Spark引擎提供MLLib機器學習庫中的BP神經網絡算法NNbp進行模型訓練和預測分析。
通過該平臺能快速地對數據進行處理和分析,從而提升數據分析和決策效率。
2 BP模型設計和配置
本文采用BP網絡(Back-Propagation Network)進行模型訓練和預測分析。該BP網絡由輸入層、隱藏層和輸出層組成。本次研究選用m×k×n的3層BP網絡模型,網絡選用S型傳遞函數f(x)=1/(1+e-x),通過反傳誤差函數E=Σi(Ti+Oi)2/2(Ti為期望輸出,Oi為網絡的計算輸出),不斷調節網絡權值和閾值使誤差函數E達到極小。
基于BP神經網絡預測方法,以“室外溫度、室外濕度、室內溫度、用戶房屋面積、人口數”為自變量,反復調節模型參數,建立預測模型。因此輸入層的節點數為5,輸出層的節點數為1。在網絡設計過程中, 確定隱層神經元數量很重要。過多的隱層神經元會加大網絡計算量,容易產生過度擬合問題; 太少的神經元個數會影響網絡性能, 可能達不到預期效果。網絡中隱層神經元的數量與實際問題的復雜性、期望誤差的設置以及輸入和輸出層的神經元數直接相關。本次實驗在選取隱層神經元個數的問題上參照了以下的經驗公式:
其中,n為輸入層神經元個數,m為輸出層神經元個數,a為[1,10]之間的常數。
根據經驗公式,神經元個數計算可取值為4~13之間,在本次實驗中選取隱層神經元個數為6。Sigmoid可微函數和線性函數通常被BP神經網絡采用作為網絡的激勵函數。由于網絡的輸出歸一到[-1,1]范圍內,因此預測模型選取S 型對數函數tansig作為輸出層神經元的激勵函數。本次預測模型網絡迭代次數epochs選定為5 000,期望誤差goal為0.000 1,學習速率lr為0.01。
3 實驗和結果分析
本文對北京地區2017年~2018年實施了“煤改電”項目的用戶的實測數據進行分析,所選數據集中包含:室外溫度、室外濕度、室內溫度、用戶房屋面積、人口數及采暖耗電量。本文選取了實際使用電采暖大于40日的用戶數據,對其進行數據處理與清洗,預測采暖小時耗電量。對數據歸一化處理得到有效數據共24 150條。通過模型計算得到的用戶采暖耗電量,對16 180條訓練數據的預測結果如圖4所示。
圖4中列出了根據采集的特征數據計算得到的采暖負荷的真實值及預測值。根據相對誤差和平均誤差的計算公式,計算得到的訓練集平均平方誤差為0.821 94。從圖中可以看出,實際數據曲線和預測數據具有一致性,在用戶實時負荷數據完備且真實的前提下,本研究所采用的預測模型能夠有效預測24小時用戶的用電量。隨著實際數據的積累和模型訓練精度的提升,最終能夠實現對實際用戶數據的預測。
4 結論
本文建立了基于大數據分析的智能服務平臺,并利用BP網絡對用戶用電量進行實際建模和預測,該預測結果和實際數據具有一致性。當然,實際的預測準確度不但與外界環境溫度相關,而且與用戶家庭人口數、房間大小和使用偏好等特性相關。因此,針對當前有效數據量的不足,能夠通過后續的數據補充,進行針對性建模和預測,從而進一步提升模型的精度,讓系統發揮更大的價值。本文所建立的系統已經應用在北京“煤改電”工程中,對完善配電網建設和用戶用電負荷配置具有顯著價值。
參考文獻
[1] 馮曉蒲.基于實際負荷曲線的電力用戶分類技術研究[D].保定:華北電力大學,2011.
[2] 張素香,劉建明,趙丙鎮.基于云計算的居民用電行為分析模型研究[J].電網技術,2013(6):65-69.
[3] 王炳鑫,侯巖,方紅旺.面向“削峰填谷”的電力客戶用電行為分析[J].電信科學,2017,33(5):164-170.
[4] 張鐵峰,顧明迪.電力用戶負荷模式提取技術及應用綜述[J].電網技術,2016,40(3):804-811.
[5] 孫毅,劉迪,李彬,等.基于家庭用電負荷關聯度的實時優化策略[J].電網技術,2016,40(6):1825-1829.
[6] 孫毅,馮云,崔燦.基于動態自適應K均值聚類的電力用戶負荷編碼與行為分析[J].電力科學與技術學報,2017,32(3):3-8.
[7] 趙莉,候興哲,胡君.基于改進k-means算法的海量智能用電數據分析[J].電網技術,2014(10):104-109.
[8] 李樂,辛江.北京農村“煤改電”用戶負荷分析及供電策略[J].中國電力企業管理,2017(10):56-58.
[9] 劉旭,羅滇生,姚建剛.基于負荷分解和實時氣象因素的短期負荷預測[J].電網技術,2009(12):98-104.
[10] 蘇適,李康平,嚴玉廷.基于密度空間聚類和引力搜索算法的居民負荷用電模式分類模型[J].電力自動化設備,2018 (1):129-136.
作者信息:
楊 爍,孫欽斐,朱 潔,陳 平
(國網北京市電力公司電力科學研究院,北京100075)