1. 沒有最好的工具;更確切地說,沒有適合所有人的最好的工具。
2. 最有用的工具,是那些能夠滿足你所需要的絕大多數數據挖掘任務的工具。
主要的數據挖掘任務
過去,數據挖掘工具的開發主要側重于提供強大的分析算法上。 但是,分析“引擎”只能完成數據挖掘項目中的一小部分任務。
大多數數據挖掘人員都明白,數據挖掘項目中70%到90%的工作是做數據準備。 在數據挖掘工具的演進過程中,數據準備功能的開發一直被放在次要位置上。 最后,你要能夠對模型準確評估,才能比較多個模型,并將它們推薦給市場人員。
數據準備任務
常見的數據準備任務包括:
進行數據評估,以判別出:
缺失值(空字符串、空格、空值)
孤立點
共線性評估(自變量之間的相關性)
給定變量多個編碼的出現頻率
合并多個數據集;
從不同輸入格式到通用分析格式的元數據(字段的名稱和類型)映射;
將類似變量的值變換為通用格式;
某些算法對輸入變量有特殊要求,需要將數值型變量變換為類別型(通過數據分箱和分類),或者將類別型變換為數值型;
將變量值切分為多個字段,或將多個字段合并為一個字段;
從現有變量中派生新變量。大多數數據挖掘人員發現,有些最具有預測能力的變量,正是派生出來的變量。
大多數數據挖掘工具會把這些數據挖掘功能放在次要的地位, 本文則會側重評估常見數據挖掘工具處理這些任務的能力。
除了能支持以上的數據準備任務,一個好的數據挖掘工具還應該包含模型評估的功能,以便比較建模過程中產生的多個模型,并用于支持直效營銷(direct marketing)。
模型評估工具
在分析理論中,最好的模型是具有最佳精度的模型,可以準確預測出目標變量的類別,同時在驗證數據集上也能表現穩定。 這就是說,在預測中我們要考慮響應目標和非響應目標的組合精度。 這種方法稱為全局精度方法(Global Accuracy method)。 大多數數據挖掘工具使用這種方法來確定“最佳”模型。 但是,它也有美中不足。 全局精度評估方法的背后有一個前提假設,就是各種分類錯誤的代價是相同的。 這種方法在課堂上表現不錯,但在實際的CRM數據挖掘應用上則可能存在問題,特別是在那些用于直郵營銷的應用上。 實際上,這也是過去很多用CRM來支持直郵營銷而未能產生明顯商業價值的一個主要原因。 對模型的評估有一些主要原則,而其中只有一部分是營銷部門真正關心的: 最大化目標客戶的響應率,最小化所需成本。 大多數數據挖掘工具都把注意力集中在預測的組合精度上,卻完全忽略了成本的因素。
在直效營銷活動中,向未響應的潛在客戶(稱為“錯誤肯定”錯誤,false-positive)發送郵件的成本是相當低的;而如果一個潛在客戶可能會響應(稱為“錯誤否定”錯誤,false-negative),你卻沒有向他發送郵件,那么這個代價就相當大了(因為沒有把他發展為客戶,您會損失他所繳納的會員費,而且他也不可能購買您的其它服務)。 因此在直銷營銷模型的評估中,就應該盡量最小化錯誤否定的錯誤,而不是錯誤肯定。 因為營銷部門只關注響應率和成本,如果前30%的客戶名單中包含了全體響應者的60%,就可以滿足他們的需求。 對于直銷營銷來說,盡管前30%的客戶仍會有部分人不會響應(錯誤肯定錯誤),向他們發送郵件依然是值得的。那是因為我們已經聯系了全體響應者中的60%。 此時就比隨機發郵件的有效性提高了一倍,也就更加合算。
大多數數據挖掘工具都使用全局精度方法來進行模型評估。 它們可能會要求你使用這種方法,通過工具的報表功能來識別出“最佳”模型。 不同算法會產生多個模型,我們不應該只是查看工具提供的精度報告,簡單比較后就判別哪個是最佳的模型。 實際上,更合適的評估應該根據如下條件來做出:按照預測概率值順序排列模型結果,生成評分列表,然后看真正的響應者是否被放在最前面的分段中。 盡管分類算法可以輸出分類概率, 實際的類別(例如,0或1)還是對分類概率的進一步歸納(例如,<0.5 = 0; ≥ 0.5 = 1)。 大量真正的“金塊”隱藏在數據挖掘工具的功能模塊之中。 初級的CRM挖掘人員會把注意力放在分類和精度上面,但真正的“金塊”應該是客戶保持、購買傾向以及新客戶獲取的概率值。
我們應該查看累積提升表(cumulative lift table;例如表1),來判別模型是否真正有效地把正確肯定(true-positives)放在了靠前的分組里。 累積提升表可以通過以下方式創建:
1、預測概率值按降序方式存儲為有序列表
2、把這個有序列表劃分為10段(分組)
3、計算每組中的實際命中數(actual hits,實際的響應數)
4、計算每個分組的隨機期望值(random expectation),該期望值等于實際響應總數除以10。也就是說,在每個分組中我們期望會有實際響應總數的10%會響應。 如果命中率超過了隨機期望值,就意味著模型為該分組帶來了提升
表1: 提升表
譯者注:
Decile-分組序號;Hits-命中數,即每組內包含的實際響應數,等于TP+FN;
TP-正確肯定;FN-錯誤否定;TN-正確否定;FP-錯誤肯定;
(TP和FN對應于實際的響應,TN和FP對應于實際的非響應)
Random Hits-隨機命中數,即隨機期望值,等于SUM(TP+FN)/10;
% of Total-召回率,等于Hits/SUM(Hits)*100;
Cum % of Total-累積召回率,是% of Total的累積值。
一共劃分了10個分組,實際的總響應數為SUM(Hits)=275,因此每組的隨機期望值為275/10=27.5。第一組的命中數為81,明顯超過了隨機期望值,其召回率=81/275=29.45%。第二組的命中數為43,也超過了隨機期望值,其召回率為43/275=15.64%,累積召回率等于第二組的召回率加上前面所有組(即第一組)的召回率,等于15.64%+29.45%=45.09%。
從上表中可以看出,該模型劃分肯定和否定的閾值應該是在第二個分組中,這樣才出現了第一組都被預測為肯定,但其中有81個是正確的肯定(TP),而735個是錯誤的肯定(FP);第二組中則同時包含了TP、FN、TN和FP;從第三組之后則都被預測為否定(因為位于閾值之下),因此包含了FN和TN。
正確肯定(True-Positives,TP): 實際的響應中,被正確預測為響應的個數
錯誤否定(False-Negatives,FN): 實際的響應中,被錯誤預測為非響應的個數
正確否定(True-Negatives,TN): 實際的非響應中,被正確預測為非響應的個數
錯誤肯定(False-Positives,FP): 實際的非響應中,被錯誤預測為響應的個數
通過對提升表的分析可以看到,在第四個分段之后,增量提升(incremental lift,第8列中的”% of Total”)下降到隨機期望(每個分段為10%)之下,而前四個分段包含了超過70%的響應。 從下面的增量提升曲線(圖1)中可以明顯看出增量提升和隨機期望的交叉點。
圖1: 增量提升圖示例
在增量提升曲線中標示了各個分段的命中數。 在圖1中可以看到,增量提升曲線在第4個分段后和隨機期望線(275個響應的10%,即平均每個分段27.5個響應)交叉。 不管營銷經理怎么去看,上述的表格和圖形都可以把必要的信息傳遞給他們。 營銷人員可以借助模型評估工具,來設定要給多少個客戶發郵件。 以表1為例,營銷人員可以向前四個分段的客戶(占整個評分名單的40%)發郵件,并預期可以命中70%的潛在響應客戶。
我們現在已經了解該如何評估數據挖掘模型,接下來就可以深入分析和調整業務流程,借助模型的結果來提高企業的盈利。 業務流程包括:
1、數據挖掘過程
2、知識發現過程
3、業務流程管理(BPM)軟件
4、知識管理系統
5、商業生態系統管理
數據挖掘過程
Eric King在“如何在數據挖掘上投資:避免預測型分析中昂貴的項目陷阱的框架”一文(發表于2005年10月的“DM Review”)中主張數據挖掘是一段旅程,而非終點。他把這段旅程定義為數據挖掘過程。 該過程包含如下要素:
1、一個發現過程
2、具有靈活的框架
3、按照清晰定義的策略進行
4、包含多個檢查點
5、多次定期的評估
6、允許在反饋環路中對函數進行調整
7、組織為疊代式的架構
過程模型
很多數據挖掘工具的廠商都對這個過程進行了簡化,使之更加清晰。 SAS將數據挖掘過程劃分為五個階段: 抽樣(Sample),解釋(Explain),處理(Manipulate),建模(Model),評估(Assess)。 過去人們常用循環式的飲水器來比喻數據挖掘過程。 水(數據)首先涌上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經處理過”的水之后,就溢出來流到下一個更低的層中。 不斷地進行這種“處理”,直到水流到最低層。在那里它被抽回頂層,開始新一輪的“處理”。 數據挖掘和這種層次式的疊代過程非常相像。 甚至在很多數據挖掘算法的內部處理也是如此,比如神經網絡算法,就是在數據集上多次運行(epochs),直至發現最優解。 Insightful Miner已經在其用戶界面中內建了簡單過程模型。 這種集成可以幫助用戶把必要的數據挖掘任務組織起來,讓任務能夠按照正確的順序來處理。
但使用飲水器來比喻數據挖掘過程還不算恰當,因為它沒有反映出反饋環路,而反饋環路在數據挖掘過程中是很常見的。 例如,通過數據評估可以發現異常的數據,從而要求從源系統中抽取更多的數據。 或者,在建模之后,會發現需要更多的記錄才能反映總體的分布。
在CRISP過程模型中進行了解決這個問題的嘗試,該模型是由Daimler-Benz、ISL (Clementine的開發者)和NCR共同制定的。 CRISP同時也被集成到Clementine挖掘工具(現在屬于SPSS公司)的設計中。 CRISP幾乎反映了完整的數據挖掘環境。
圖2: CRISP圖例
使用數據建模其實和做陶土模型或者大理石模型差不多。 藝術家首先從一大堆材料開始著手,經過許多次的加工和檢查,才誕生了最終的藝術品。很多人在建模過程中常常沒有充分理解建模的本質,由此帶來了一系列問題,使得建模變得很復雜。 Eric King發現數據挖掘是一個循環的過程(就象上圖中的CRISP流程圖),而非線性的過程。 這種循環式的數據挖掘過程會讓您想起Wankel轉式汽車發動機。 這種發動機是一圈一圈旋轉的(而非上下運動),不斷輸出動能來驅動汽車。 與之相似,數據挖掘過程也是不斷循環,產生信息來幫助我們完成商業目標。 信息就是推動商業的“能量”。 在挖掘過程中會有很多對前一個階段的反饋(例如,在完成初步建模之后可能需要獲取更多的數據)。
不過,在CRISP流程中還是遺漏了一個要素——那就是對 數據倉庫或源系統的反饋。 前一次CRM營銷活動的結果應該導入數據倉庫,為后續的建模提供指導,并能跟蹤營銷活動間的變化趨勢。 我在CRISP流程圖中加入了這些反饋,以紅線表示(見圖2)。
通過數據挖掘過程的結構,我們可以得知數據挖掘工具必需能完成那些任務,但是工具常常會缺少對部分功能的支持。 當產生了挖掘結果時,你會怎么使用這些結果呢? 此外,針對挖掘結果所采取的這些行動又將如何影響后續的挖掘? 數據挖掘工具應該具備的一些功能包括:
1、將模型導出到多種數據庫結構中
2、模型的導出格式,適合于決策支持和商業行動的應用
3、挖掘算法的輸出數據,可以為另外的算法所用
4、能夠比較不同算法的結果
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:數據挖掘工具:誰最適合CRM
本文網址:http://m.hanmeixuan.com/html/consultation/10819412587.html