大數據分析及處理方法
越來越多的應用涉及到大數據,這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的複雜性,所以,大數據的分析方法在大數據領域就顯得尤爲重要,可以說是決定最終信息是否有價值的決定性因素。下面,小編爲大家分享大數據分析及處理方法,希望對大家有所幫助!
大數據的處理
周濤博士說:大數據處理數據時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。
具體的大數據處理方法其實有很多,但是根據長時間的實踐,筆者總結了一個基本的大數據處理流程,並且這個流程應該能夠對大家理順大數據的處理有所幫助。整個處理流程可以概括爲四步,分別是採集、導入和預處理、統計和分析,以及挖掘。
採集
大數據的採集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關係型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的L數據庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是併發數高,因爲同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們併發的訪問量在峯值時達到上百萬,所以需要在採集端部署大量數據庫才能支撐。並且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。
導入/預處理
雖然採集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分佈式數據庫,或者分佈式存儲集羣,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。
統計/分析
統計與分析主要利用分佈式數據庫,或者分佈式計算集羣來對存儲於其內的海量數據進行普通的分析和分類彙總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC 的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用於聚類的K-Means、用於統計學習的SVM和用於分類的Naive Bayes,主要使用的工具有Hadoop的Mahout等。
該過程的特點和挑戰主要是用於挖掘的算法很複雜,並且計算涉及的數據量和計算量都很大,還有,常用數據挖掘算法都以單線程爲主。
大數據分析的五個基本方面
1. Analytic Visualizations(可視化分析)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀衆聽到結果。
2. Data Mining Algorithms(數據挖掘算法)
可視化是給人看的,數據挖掘就是給機器看的。集羣、分割、孤立點分析還有其他的算法讓我們深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。
3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
4. Semantic Engines(語義引擎)
我們知道由於非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。
5. Data Quality and Master Data Management(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。
假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。
-
大學生英語四級聽力技巧規律總結
總結是把一定階段內的有關情況分析研究,做出有指導性結論的書面材料,它可以使我們更有效率,因此好好準備一份總結吧。那麼總結有什麼格式呢?以下是小編幫大家整理的大學生英語四級聽力技巧規律總結,僅供參考,希望能夠幫助到大家。1、對話題對話題可以說是考生最易拿...
-
採購談判的技巧有哪些
採購談判的技巧有哪些1擇適當的供應商所謂“只有錯買沒有錯賣”。採購最怕的就是選錯供應商。因此,採購管理的工作原則之一,就是如何慎重選擇合格的供應商,以建立平等互惠的買賣機會,維持長期合作的交易關係。擇適當的品質供應部門根據車間人員的需求確定採購物資...
-
數據分析員年終總結精華【3篇】
總結是在某一特定時間段對學習和工作生活或其完成情況,包括取得的成績、存在的問題及得到的經驗和教訓加以回顧和分析的書面材料,它可以促使我們思考,爲此我們要做好回顧,寫好總結。你所見過的總結應該是什麼樣的?以下是小編收集整理的數據分析員年終總結,供大家參考...
-
國小三年級語文期中試卷分析範例【4篇】
無論是在學校還是在社會中,我們總免不了要接觸或使用試卷,試卷是課程考覈統計分析工作的重要組成部分,它包括試卷的信度、效度、區分度、難度四個方面。什麼樣的試卷纔是好試卷呢?下面是小編爲大家收集的國小三年級語文期中試卷分析,僅供參考,大家一起來看看吧。國小...