論數據挖掘技術在電力行業中的應用論文

引言數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式爲:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,並從中發現隱藏的關係和模式,進而預測未來可能發生的行爲。數據挖掘的過程也叫知識發現的過程。

一、數據挖掘技術數據挖掘就是指

從數據庫中發現知識的過程。包括存儲和處理數據,選擇處理大量數據集的算法、解釋結果、使結果可視化。整個過程中支持人機交互的模式。數據挖掘從許多交叉學科中得到發展,並有很好的前景。這些學科包括數據庫技術、機器學習、人工智能、模式識別、統計學、模糊推理、專家系統、數據可視化、空間數據分析和高性能計算等。數據挖掘綜合以上領域的理論、算法和方法,已成功應用在超市、金融、銀行、生產企業和電信,並有很好的表現。

二、數據挖掘的過程

挖掘數據過程可以分爲3個步驟:數據預處理、模式發現、模式分析。

(1)數據預處理。實際系統中的數據一般都具有不完全性、冗餘性和模糊性。因此,數據挖掘一般不對原始數據進行挖掘,要通過預處理提供準確、簡潔的數據。預處理主要完成以下工作:包括合併數據,將多個文件或多個數據庫中的數據進行合併處理;選擇數據,提取出適合分析的數據集合;數據清洗、過濾,剔除一些無關記錄,將文件、圖形、圖像及多媒體等文件轉換成可便於數據挖掘的格式等。

(2)模式發現。模式發現階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識。可用於Web的挖掘技術有路徑選擇、關聯分析、分類規則、聚類分析、序列分析、依賴性建模等等。

(3)模式分析。模式分析是從模式發現階段獲得的模式、規則中過濾掉不感興趣的規則和模式。通過技術手段,對得到的模式進行數據分析,得出有意義的結論。常用的技術手段有:關聯規則、分類、聚類、序列模式等。

　　三、數據挖掘在電力系統負荷預測中的應用

電力負荷預測是能量管理系統及配電管理系統的重要組成部分,是電力系統規劃和運行調度的依據,也是電力市場化商業運營所必需的基本內容。負荷預測工作的關鍵在於收集大量的歷史數據,建立科學有效的預測模型,採用有效的算法,以歷史數據爲基礎,進行大量試驗性研究,總結經驗,不斷修正模型和算法,以真正反映負荷變化規律。其過程爲:

(1) 調查和選擇歷史負荷數據資料

多方面調查收集資料,包括電力企業內部資料和外部資料,從衆多的資料中挑選出有用的一小部分,即把資料濃縮到最小量。挑選資料時的標準要直接、可靠並且是最新的資料。如果資料的收集和選擇得不好,會直接影響負荷預測的質量。通過建立計算機數據管理系統,利用計算機軟件系統來自動管理數據。

(2) 負載數據預處理

經過初步整理,還用於數據分析的預處理,平滑異常值的歷史數據和缺失數據的異常數據主要是水平的,垂直的方法附錄。正在分析數據之前和之後的兩個時間的負載數據作爲基準,來設置要處理的數據時,要處理的數據的範圍中最大的變化的數據的處理的水平超過該範圍時,它被認爲是壞的數據,使用平均法平滑變化;垂直負載數據預處理中的數據處理的考慮其24小時的小循環,即,相同的時間的日期不同的負載應具有相似的,同時負載值應保持在一定範圍內,校正外的範圍內的數據進行處理,在最近幾天的壞數據,力矩載荷的意思。

(3) 歷史資料的整理

一般來說,由於預測的質量不會超過所用資料的質量,所以要對所收集的與負荷有關的統計資料進行審覈和必要的加工整理,來保證資料的質量,從而爲保證預測質量打下基礎,即要注意資料的完整無缺,數字準確無誤,反映的都是正常狀態下的水平,資料中沒有異常的'“分離項”,還要注意資料的補缺,並對不可靠的資料加以覈實調整。通過建立數據完整性、一致性約束模型,來建立海量數據集爲後面的數據挖掘做好充分的準備。

(4) 建立負荷預測模型

負荷預測模型是統計資料軌跡的概括,預測模型是多種多樣的,因此,對於具體資料要選擇恰當的預測模型,這是負荷預測過程中至關重要的一步。當由於模型選擇不當而造成預測誤差過大時,就需要改換模型,必要時,還可同時採用幾種數學模型進行運算,以便對比、選擇。

(5) 選擇算法

選擇聚類法又稱聚類分析法,它是對一組負荷影響因素數據進行聚類的方法,聚類後的數據即構成了一組分類。聚類的標準是以數據的表象(即數據屬性值)爲依據的,聚類的工具是將一組數據按表象而將相近的歸併成類,最終形成若干個類,在類內數據具有表象的相似性,而類間的數據具有表象的相異性。聚類的算法也有很多,有遺傳算法,劃分法,層次法,基於密度方法,基於網格方法等。四、CURE算法在負荷預測中的應用 CURE算法是一種分層聚類算法。典型的數據點來表示一個具有固定數目的聚類。的CURE算法需要作爲參數輸入的羣集數?。由於CURE聚類的代表點的某些有代表性的,可以發現具有任何尺寸和形狀的聚類。同時,在一個集羣代表點的選擇方式的中心“縮水”排除“噪音”。

歷史上第一個數據庫負荷預測,數據提取樣品。的數據樣本聚類,可以分爲兩種方法:一個是所有樣本數據進行聚類,這個方法會使主內存容量是遠遠不夠的,系統無法掃描一次完成。我們使用所有的樣本數據被分成多個區域,每個區域的數據進行聚類,使每個分區可以品嚐到所有的數據加載到主內存。然後,針對每個分區,使用分層算法的聚類。

電力系統的應用SCADA系統中的數據測量、記錄、轉換、傳輸、收集數據,並可能導致故障和負載數據丟失或異常。異常數據的生成是隨機的,因此,在數據庫中的不確定性的分佈,不同類型的異常數據出現單獨或在一個特定的時刻,或交叉混合發生在同一天連續,或在相同的連續天期的橫分佈,以及許多其他場合。異常數據的處理的關鍵影響的預測結果的準確性。使用兩種不同的技術,以刪除異常。第一種技術是要刪除的集羣增長緩慢。當簇的數量低於某一閾值,將只包含一個或兩個集羣成員的刪除,第二種方法是在集羣的最後階段,非常小的集羣中刪除。

最後對樣本中的全部數據進行聚類,爲了保證可以在內存中處理,輸入只包括各個分區獨自聚類時發現的簇的代表性點。使用c個點代表每個簇,對磁盤上的整個數據庫進行聚類。數據庫中的數據項被分配到與最近的代表性點表示的簇中。代表性點的集合必須足夠小以適應主存的大小。

結束語

數據挖掘技術雖然得到了一定程度的應用,並取得了顯着成效,但仍存在着許多尚未解決的問題。隨着人們對數據挖掘技術的深人研究,數據挖掘技術必將更加成熟,並取得更加顯着的效果。