數據挖掘在工商管理中的運用論文

網絡經濟的關鍵在於能夠爲商品的供應商及其合作者之間提供一個交流的平臺，但是即便是最權威的搜索引擎也只能夠搜索到三分之一的web網頁，並且這些Web都是沒有結構的、動態的、複雜的形式出現。人們要從各種各樣的文本網站中尋找自己想要的信息進而變得更加困難。網絡數據挖掘技術就是用來解決這一問題的好辦法，利用數據挖掘技術能夠有效發現在web網頁中隱藏着的對用戶有力的數據信息，在對數據的分析中總結出規律。如何實現用戶對於Web上的有效數據的深度挖掘，使其成爲工商管理領域中的重要應用，成爲了當代許多網絡工作者所關注的話題。

一、數據挖掘概述

（一）數據挖掘

數據挖掘(DataMining)指的是，在大量的、不規則的、隨機的、複雜的、有噪聲的實際應用數據中，獲得一些信息和知識，能夠對用戶祈禱潛在作用的效果的過程。將數據挖掘用通俗的話來描述就是在數據庫中發現潛在有用的知識發現(KDDKnowledgeDiscoveryinDatabase)。在這個定義中主要包含了以下幾方面的含義：首先數據源的特性是大量、隨機、不規則、噪聲；信息是客戶所感興趣的對象；選取的知識必須是在可接受、可理解、可運用的範圍內的，並不是全部符合要求的都可以，對於問題要有一定的針對性。也就是說對於所發現的知識的篩選是有一定的約束和限制條件的，同時也要符合用戶的理解和學習能力，最好還能夠用通俗的語言來表達最終的結果。

（二）Web數據挖掘

Web數據挖掘實際上是屬於數據挖掘的範疇的。概括的來說，Web數據挖掘的數據庫特定的就是Web服務器上的數據文件，從中發現用戶感興趣並有所應用潛能的知識。Web數據挖掘主要針對的就是頁面內容、頁面之間的結構、用戶訪問信息、電子商務等內在信息，通過數據挖掘技術來獲得有價值的信息。Web數據和傳統數據庫存在着很大的差異，傳統的數據庫都是在一定的數學模型範圍之內的，通過模型來描述其中的數據；但是web數據庫相對來講就要複雜許多，沒有通用的模型來描述數據，每個網頁都有其獨特的數據描述方式，丙炔數據自身都是可變的、動態的。因而，Web數據雖然具有一定的結構性，不能用架構化的形式來表達，也可以稱其爲半結構化的數據。Web數據的最大特點就是半結構化，加上Web數據的信息量極大，導致整一個數據庫成爲一個巨大的異構數據庫。

二、網絡數據挖掘的類型

（一）網絡內容挖掘

網絡內容挖掘的對象是網頁的內容、數據、文檔,這通常也是網頁在急性搜索的時候需要考察的訪問對象。由於網絡信息繁多，按照信息源的不同可以劃分爲Gopher、FTP、Usenet等已經隱藏到WWW形式之後的資源,我們稱之爲WWW信息資源,存儲於數據庫管理信息系統中的數據,以及不能直接訪問的私人數據。按照網絡資源的形式又可以劃分爲文本、圖像、音頻、視頻等數據。

（二）網絡結構挖掘

網絡結構挖掘的對象就是Web潛在的鏈接結構模式。這種類型最早出現在引文分析,在建立web自身的鏈接結構模型的時候借鑑了網頁鏈接和被鏈接數量以及對象。在網頁歸類的時候往往會採用這種模式,還能夠得到不同網頁間相似度及關聯度的相關數據。網絡結構挖掘能夠幫助用戶在相關領域中找到最有分量的網站。

（三）網絡用法挖掘

網絡用法挖掘的目的在於掌握用戶的一系列網絡行爲數據。網絡內容挖掘、網絡結構挖掘針對的都是網上的原始數據,而網絡用法挖掘針對的是用戶在上網過程中的人機交互的第二手數據,主要有用戶的網頁遊覽記錄、代理服務器日誌記錄、網頁維護信息、用戶簡介、註冊信息、聊天記錄、交易信息等等。

三、網絡經濟環境下數據挖掘在工商管理中的運用步驟

（一）識別網站訪問者的特徵信息

企業對電子商務網站的數據進行挖掘的第一步，就是要明確訪問者的特點，找出訪問者使用的條款特徵。訪問者特徵主要有入口統計、心理狀態和技術手段等要素。人口統計並不是一成不變的，比如家庭地址、收入、購買力等因素都會不斷改變。心理狀態指的是在心理調研中展現出的個性類型，比如對商品的選擇去世、價格優惠心理、技術興趣等。隨着訪問者數量的增加，相關數據也會不斷累積。條款的交互信息主要包括購買歷史、廣告歷史和優選信息。網站統計信息是指每次會話的相關要素。公司信息主要包括訪問者對接的服務器所包含的一系列要素信息。

（二）制定目標

開展網上交易的最大優勢在於企業對於訪問者的反應有着更好的前瞻性。當廠商的目標是明確且具象的時候，就能夠通過數據挖掘技術得到較好的效果。企業通常可以設定以下的目標:網頁訪問者的增加量；類此網頁訪問的瀏覽時間增加；每次結賬的平均利潤;退換貨的減少；品牌知名度效應；回頭客的數量等等。

（三）問題描述

開展電子商務的企業最關鍵要面對的一個問題就是如何進行商品的傳播，要實現網頁的個性化又要將商品的信息完整的展現給顧客，就需要了解同一類訪問者的共有特徵、估計貨物丟失的數據並預測未來行爲。所有這一切都涉及尋找並支持各種不同的隱含模式。

（四）關聯分析

對顧客大量的交易數據進行關聯規則分析，能夠發現顧客購買組合商品的趨勢。關聯分析指的是在一次瀏覽或者會話中所涉及到的商品，也叫做市場分析。若電子商務網站能夠將這些商品放在同一個網頁中，就能夠提高顧客同時購買這些商品的概率。如果在關聯的一組商品中有某一項商品正在進行促銷，就能夠帶動其他組合產品的.銷量。關聯也能夠用在靜態的網站目錄網頁。在這種情況下，網站排序的主要依據是廠商選擇的且是網站所要查看的第一頁內容，將其以及其相關的商品信息放在網頁的首頁。

（五）聚類

聚類指的是將具有相同特徵的商品歸爲一類，將特徵平均，以形成一個“特徵矢量”。聚類技術能夠確定一組數據有多少類，並用其中一個聚類來表示其餘大多數數據。通常在企業分析訪問者類型的時候使用聚類技術。

（六）決策樹

決策樹描繪的是都想決定在做出的一系列過程中的問題或數據點。比如做出購買電視機這一決定就要經歷對於電視機的需求、電視機的品牌、尺寸等等問題，最終確定好買哪一臺電視機爲止。決策樹能夠較一個決策過程進行系統的排序，以便選出最優的路徑來儘可能減少決策的步驟，提高決定的質量和速度。許多企業將決策樹體系添加到自己的產品選擇系統中，能夠幫助訪問者解決特定問題。

（七）估計和預測

估計是對未知量的判斷，預測是根據當前的趨勢做出將來的判斷。估計和預測使用的算法類似。估計能夠對客戶空白的項目做到預判。如果網站想知道某個訪問者的收入，就可以通過與收入密切相關的量估計得到，最後通過與其有相同特徵的訪問者的收入來衡量這個訪問者的收入和信用值。預測是對未來事項的判斷。尤其是在某些個性化網頁中顯得尤爲重要。企業通過數據的彙總增進對客戶的瞭解。即使是對以往事件的分析中也可以得到有效的信息。預測能夠對訪問者的特徵作出總結和彙總，以便企業能夠找出更有針對性的組合商品來滿足客戶的需求。Web數據和傳統數據庫存在着很大的差異，最大特點就是半結構化，加上Web數據的信息量極大，導致整一個數據庫成爲一個巨大的異構數據庫。能夠幫助用戶在特性是大量、隨機、不規則、噪聲的信息中發現感興趣的對象。