前言
隨著信息處理技術的不斷發展,信息的存儲、管理使用和維護顯得越來越重要,而傳統的數據庫管理系統很難滿足其要求,表現為:數據量成幾何級數的增長,不同部分的數據難以集合,訪問數據的響應性能不斷降低。要使數據能夠發揮其最佳功效,更好地為用戶服務,數據倉庫的出現為用戶處理所需要的決策信息提供了一種有效的方法。
1 相關理論和技術基礎
數據挖掘的定義:數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘其實是一個逐漸演變的過程。電子數據處理的初期,人們就試圖通過一些方法來實現自動決策支持,當時機器學習成為人們關心的焦點。機器學習的過程就是將一些已知并成功解決的問題作為范例輸入計算機,機器通過學習這些范例,總結并生成相應的規則。隨后,隨著神經網絡技術的形成和發展,人們的注意力轉向知識工程。知識工程不同于機器學習,不是為計算機輸入范例,由其生成的規則,而是直接為計算機輸入已被代碼化的規則,而計算機是通過使用這些規則解決某些問題。專家系統就是這種方法所得到的成果,但有投資大和效果不甚理想等不足。20世紀80年代人們又在新的神經網絡理論的指導下,重新回到機器學習的方法上。并將其成果應用于處理大型商業數據庫,出現了數據庫中的知識發現,簡稱KDD(Knowledged Discovery in Database)。它泛指從所有數據源中發掘模式的聯系和方法,人們接受了這個術語。1995 在美國計算機學會(ACM)上,提出了數據挖掘(DM,DataMining)概念作為知識發現過程的關鍵步驟,但是現在人們對于KDD和DM 這兩個概念通常不加以區別,所以往往混用。
2 數據挖掘中的聚類算法
聚類算法是本文重點研究的對象,通過介紹聚類算法的一些基本原理和概念,將此算法在CRM 系統中作出一個應用。
聚類:聚類是開始分析的好方法,特別是面臨大量復雜的可能有很多內部結構的數據集。通過使用這種方法,分析者可以將一個大問題按照特征分成一組。,這些聚類提供了對其中成員的描述。通過提供分類這些聚類的方法,我們就能夠對問題有個大致的了解。聚類就是將物理或抽象的集合分組成為由類似的對象組成的多個類的過程。聚類的結果是使同一個類別內的對象具有較高的相似度,而不同的類別的對象之間差別很大。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。
2.1 CRM的概念
CRM 的核心內容是通過不斷地改善與管理企業銷售、營銷、客戶服務和支持等與客戶關系有關的業務流程,提高各個環節的自動化程度。從而縮短銷售周期,降低銷售成本,擴大銷售量,搶占更多市場份額,尋求新的市場機會,最終達到從根本上提升企業核心競爭力的目的。
2.2 數據倉庫的特點
數據倉庫是面向主題的主題,是指用戶使用數據倉庫進行決策時所關心的重點方面,如工業情況、農業情況、整個高科技園發展狀況等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,為按主題進行決策的過程提供信息。
數據倉庫是集成的:集成,是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,是經過系統加工、匯總和整理,保證數據倉庫內的信息是關于整個系統的一致的全局信息。
數據倉庫是穩定的:穩定,是指一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的插入和查詢操作,但修改和刪除操作很少。
數據倉庫是隨時間增長的:數據倉庫包含歷史數據,是指數據倉庫內的信息并不只是某一時點的信息,而是系統記錄了從過去某一時點(如開始應用數據倉庫的時點)到目前各個階段的信息,通過這些信息表明發展歷程并對趨勢做出定量分析和預測。
圖1 數據倉庫概念結構圖
在本文的CRM系統建模中,建立超市的數據倉庫是一個關鍵的步驟。
3 聚類算法與層次分析法
3.1 K-means聚類算法
K-means聚類算法的基本思想
假定需要聚類的對象共有n 個,把n 個對象分為C 個簇,以使簇內有較高的相似度,而簇間的相似度較低。相似度的計算根據一個簇中對象的平均仿(被看作簇的重心)來進行。其基本思想是:首先隨機從數據集中選取C 個點作為初始聚類中心(數量C是在算法運行前確定的),然后對剩余的每個對象,根據其與各個簇中心的距離,將它賦予最近的簇,重新計算每個簇的平均值。
這一過程不斷重復,直到準則函數收斂。
通常采用平方誤差準則,其定義如公式3.1所示:
3.2 層次分析法
3.2.1 層次分析法的歷史
層次分析法(AHP)是將決策總是有關的元素分解成目標、準則、方案等層次,在此基礎之上進行定性和定量分析的決策方法。該方法是美國運籌學家匹茨堡大學教授薩蒂于本世紀70 年代初,應用網絡系統理論和多目標綜合評價方法,提出的一種層次權重決策分析方法。
3.2.2 層次分析法的特點
層次分析方法的特點是在對復雜的決策問題的本質、影響因素及其內在關系等進行深入分析的基礎上,利用較少的定量信息使決策的思維過程數學化,從而為多目標、多準則或無結構特性的復雜決策問題提供簡便的決策方法。尤其適合于對決策結果難于直接準確計量的場合。
k-means算法和層次分析法結合起來為實現在超市的CRM(客戶管理系統模型)的應用,所以下面章節就超市CRM(客戶關系管理系統)進行建模。
4 基于聚類算法和層次分析法在CRM系統的應用
K-means聚類算法在超市CRM的實例分析
(1)算法:K-means聚類算法。劃分的K-means算法基于簇中對象的平均值。
(2)輸入:簇的數目k和包含n個對象的數據庫。
(3)輸出:k個簇,滿足平方誤差準則最小。
(4)對于數據對象集{x1,x2,x3......xn},隨即選取k 個初始化中心{y1,y2,y3......yn}作為初始簇的中心。
repeat 計算各樣本到聚類中心的距離,對于任意點x,存在Y,,使得其滿足式
(8)until不再發生變化。
K-means 聚類算法為一種解決聚類問題的經典算法,這種算法簡單、快速。嘗試找出使平方誤差函數值最小的k個劃分.作當結果簇是密集的,而簇與簇之間區別明顯時,它的效果較好。對于處理大數據集,該算法是相對可伸縮的和高效的,因為它的復雜度是O(nkt),其中,n是所有對象的數目,k是簇的數目,C是迭代的次數。
通常地,而且t<n。這個算法經常以局部最優解結束。
上述的系列圖說明了應用k-means 算法和層次分析法得出用戶潛在價值的過程。系統在處理海量的顧客數據后,可獲得可靠的信息支持策略和商業決策,競爭對手很難效仿這些決策,因此超市可以在競爭中表現出優勢。
5 結束語
數據挖掘是信息技術發展到一定階段后產生的新興技術,它是從大量的實際應用數據中,提取隱含在其中的有用的信息和知識。作為一項決策支持的新技術,目前在國際上對該領域的研究相當活躍。聚類分析是數據挖掘的重要內容,也是數據挖掘領域內最為常見的技術之一,它既可以作為單獨的工具以發現數據源的數據分布信息,也可以作為其他數據挖掘算法的一個預處理步驟,因此研究聚類算法的性能具有重要的意義。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:基于數據挖掘及其在超市CRM的應用
本文網址:http://m.hanmeixuan.com/html/consultation/10839311529.html